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“关于 如 何 设计 、 实 现 和 有 效 使 用 库 函 数 的 指南 少 之 又 少 〈 如 果 说 还 有 的 话 )。 这 本 力作 填补 了 这 
个 空白 。 它 可 以 作为 下 一 代 软 件 的 工具 书 ， 所 有 的 C 语 言 程序 员 都 应 该 阅读 。 ^ 


— — W. Richard Stevens 
| “我 向 每 位 专业 C 语 言 程序 员 推 荐 这 本 书 。C 语 言 程序 员 们 忽视 书 中 所 描述 的 各 种 技术 已 经 太 长 时 
间 了 。 — Norman Ramsey， 贝 尔 实验 室 研究 员 


每 一 位 程序 员 和 软件 项 目 经 理 必 须 掌握 创建 可 重用 软件 模块 的 技术 ;: 可 重用 软件 模块 是 
构建 大 规模 、 可靠 应 用 的 基石 。 与 当前 某 些 面向 对 象 语 言 不 同 ，C 语 言 为 创建 可 重用 应 用 程 
序 接口 (Application Programming Interface, API) 提供 的 语言 和 功能 支持 非常 少 。 尽 管 大 多 
数 C 语 言 程序 员 在 自己 所 编写 的 每 一 个 应 用 程序 中 都 使 用 AP1 和 实现 API 的 库 ， 但 只 有 相当 少 
的 程序 员 可 以 创建 和 发 布 新 的 、 可 广泛 使 用 的 API。 本 书 阐述 了 如 何 用 一 种 与 语言 无 关 的 方 
法 将 接口 的 设计 与 实现 独立 开 来 ， 从 而 形成 一 种 基于 接口 的 设计 途径 来 创建 可 重用 的 APl。 
书 中 提供 大 量 实例 具体 说 明 这 种 方法 。 作 者 详细 描述 了 24 个 接口 和 它们 的 实现 细节 ， 有 助 于 
读者 对 这 种 设计 方法 的 透彻 理解 。 


本 书 具有 如 下 特色 


e 简洁 明了 的 接口 描述 ， 为 对 接口 设计 感 兴趣 的 程序 员 提 供 了 一 个 参考 手册 

e 每 一 章 接口 的 代码 实现 分 析 将 帮助 读者 修改 、 扩 充 一 个 接口 ， 或 者 设计 相关 接口 

@ 深入 探讨 了 “算法 工程 ”: 阐述 如 何 将 数据 结构 以 及 相关 算法 打包 到 可 重用 模块 中 

e ”24 个 API 和 8 个 实例 程序 的 源 代码 都 经 过 测试 检查 ， 每 个 程序 都 是 按照 “literate 程 序 ” 的 形 
式 构成 ， 为 源 代码 提供 了 全 面 完 整 的 解释 

提供 了 非常 少见 的 有 关 C 语 言 编程 技巧 的 文档 记录 

可 以 方便 地 在 http://www.cs.princeton.edu/software/cii/ 访问 本 书 的 所 有 源码 


e 普林斯顿 大 学 计算 机 科学 系 教授 ， 有 着 二 十 多 年 编程 语言 
Se David R. Hanson E*99^7isun 


E 究 经 验 。 他 曾经 同 贝尔 实验 室 合 作 开展 研究 工作 ， 是 适用 于 
UNIX 系 统 上 的 高 质量 C 编 译 器 一 lcc 的 开发 者 之 一 。 另 与 Christopher Fraser 合 车 有 《A Retargetable 
Is) C Complier: Design and Implementation》 一 书 ， 对 Icc 进 行 了 讨论 和 分 析 。 
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本 书 通 过 叙述 如 何 用 - -种 与 语 语 无 关 的 方法 将 接口 的 设计 与 实现 独立 开 来 ， 从 而 形 
成 一 种 基于 接口 的 设计 途径 来 创建 可 重用 的 API。 本 书 是 一 本 针对 C 语 言 程序 员 的 不 可 
多 得 的 好 书 ， 也 是 值得 所 有 希望 掌握 可 重用 软件 模块 技术 的 读者 阅读 的 参考 书籍 。 











Authorized translation from t^^ English language edition entitled C Interfaces and 
Implementations: Techniques for Creating Reusable Software by David R.Hanson, published by 
Pearson Education, Inc, publishing as Addison-Wesley, Copyright © 1997 by David R.Hanson . 

All rights reserved. No part of this book may be reproduced or transmitted in any form 
or by any means, electronic or mechanic, including photocopying, recording, or by any 
information storage retrieval system, without permission of Pearson Education, Inc. 

Chinese simplified language editior published by China Machine Press. 


Copyright © 2003 by China Machine Press. 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 荃 断 性 的 优势 ; 由 让 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
AGE IB. AKRE. 在 商业 化 的 进程 中 .美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 栅 
学 科 中 的 许多 泰山 北斗 同时 刁 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， IRE AOR UN OS BE RAI, MBAR AE, HOMAGE ARS 
因 年 月 的 流逝 而 减退 。 

近年 ， 仁 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猪 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 四 都 娩 足 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 叮 间 绞 短 、 从 业 人 员 较 今 的 现状 下 ，、 美 国 等 发 达 同 家 
在 其 计算 机 科学 发 展 的 几 上 年 问 积淀 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 . 内 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真 止 的 世界 一 流 大 学 的 必由之路 . 

机 械 工 灶 出 版 社 华章 图 文 信息 有 限 公 司 较 时 意识 到 “出 版 更 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 下 点 放 在 了 送 选 、 移 说 国外 优秀 教材 1 上、 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 亿 界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 王选 出 Tanenbaum，Stroustrup，Kernighan , 
Jim Gray 等 大 师 名 家 的 - - 批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 学 习 、 研 
FER BERK. KEG SCHED AT, ARR FXE A FEY OE RSA - 

“TEE BLES MA T WE AE RESI Pb ERIK 88 7) E BD. BAL BU Be HE h 
PAY) ae TG T, ER PSF EGE PR BT REA Ts BAY EE AH COE HE HIE S fx 
PAE. BUM CCS HAS YP PER RIS GES, “计算 机 科学 从 书 ” 已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 止 式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 轧 度 ， 在 “化 总 教 育 ” 的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 从 书 ” 之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原 版 书库 ”; 同上 时， 引进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” Zl 组 成 
“全 美 经 典 学 习 指 导 系 列 ”” 为 了 保证 这 三 套 从 卡 的 权威 性 ， 间 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 周 防 科技 大 学 、 复 日 大 学 、 上 
海 交通 大 学 、 南 京 大 学 、 浙 江 大 学 PRR CE 、 哈 尔 滨 工业 大 学 、 两 安 交通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 ACSA ACE SPORE RRA TOK 郑州 大 学 、 湖 
北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 同 内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 省 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. IT., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵 盖 了 程序 设计 、 数 据 结 构 、 操 作 系统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 其 特色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 党 而 入室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 ; hzedu@hzbook.com 

联系 电话 : (010 ) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 ] 号 
邮政 编码 : 100037 
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可 重用 软件 模块 是 构建 大 规模 、 可 靠 应 用 的 基石 ， 每 一 位 程序 员 和 软件 项 目 经 理 必 须 掌 
握 创 建 可 重用 软件 模块 的 技术 。literate 程 序 设计 是 一 种 将 编程 代码 实现 与 文档 描述 语言 结合 
起 来 的 编程 方法 ， 一 个 literate 程 序 包 含 程序 代码 和 文档 ， 它 关注 文档 描述 ,编写 的 代码 针对 
于 人 而 不 是 编译 器 。 本 书 即 使 用 这 种 激动 人 心 的 编程 方式 ,通过 和 叙述 如 何 用 一 种 与 语言 无 关 
的 方法 将 接口 的 设计 与 实现 独立 开 来 ， 从 而 设计 、 实 现 和 有 效 使 用 C 语 言 库 函 数 ， 掌 握 创 建 可 
重用 C 语 言 软件 模块 技术 。 

本 书 倡 导 基 于 接口 的 C 语 言 设计 理念 及 共 实 现 ， 深 入 详细 地 描述 了 24 个 C 语 言 接口 及 共 实 
现 ， 内 容 包 括 : 异常 和 断言 、 内 存 管理 、 链 表 、 表 格 、 集 合 、 动 态 数组 、 序 列 、 环 、 位 向 量 、 
原子 、 格 式 化 、 低 级 字符 串 、 高 级 字符 串 、 扩 展 精 度 算法 、 任 意 和 多 精度 算法 以 及 线程 等 ， 
是 一 本 为 C 语 言 编 程 人 员 排 忧 解 难 的 参考 书 。 

C 语 言 对 于 创建 可 重用 API 只 提供 了 非常 少 的 语言 和 功能 支持 。 尺 管 大 多 数 C 语 言 程序 员 
在 自己 所 编写 的 每 一 个 应 用 程序 中 都 使 用 API 和 实现 API 的 库 ， 但 只 有 相当 少 的 程序 员 可 以 创 
建 和 发 布 新 的 、 可 广泛 使 用 的 API。 

本 书 具 有 简 洗 明了 的 接口 描述 ， 为 对 接口 设计 和 感 兴趣 的 程序 员 提 供 了 一 个 参考 于 册 。 每 一 
章 接口 的 代码 实现 分 析 将 帮助 读者 修改 、 扩 充 一 个 接口 ， 或 者 设计 相关 接口 。 深 入 探讨 了 将 
数据 结构 以 及 相关 算法 打包 到 可 重用 模块 中 的 技术 和 实现 技巧 . 24 个 API 和 8 个 实例 程序 的 源 
代码 都 经 过 测试 检查 ， 每 个 程序 都 是 按照 “literate 程 序 ” 的 形式 构成 ， 为 源 代码 提供 了 全 面 完 
整 的 解释 。 本 书 还 提供 了 非常 有 用 但 却 很 少见 的 有 关 C 请 言 编程 技巧 的 文档 记 洪 ， 男 外 读者 还 
可 以 方便 地 在 http://www.cs.princeton.edu/software/cii/ 访 问 本 书 的 所 有 源码 。 

本 书 的 最 大 特点 是 理论 与 实践 相 结合 。 书 中 从 讲述 相关 的 C 语 言 基 本 知识 和 概念 分 析 的 方 
法 入 手 ,在 此 基础 上 结合 作者 的 实践 经 验 讲 述 如 何 实现 基本 数据 结构 和 算法 、 字 符 串 处 理 和 
并 行 编程 接口 方法 。 本 书 的 作者 是 普林斯顿 大 学 计算 机 科学 系 教 授 ， 有 着 二 十 多 年 编程 语言 
研究 经 验 。 他 曾经 同 贝 尔 实验 室 合 作 开展 研究 工作 ， 是 流行 于 Unix 系 统 的 用 于 C 语 言 的 高 质量 
编译 如 lcc 的 合作 开发 者 。 书 中 的 讲述 思路 清晰 ， 诸 言 表达 明确 ， 并 且 达 具有 丰富 的 示例 ， 安 
排 具 有 条 理性 ， 易 于 理解 和 掌握 。 使 人 读 完 有 芥 然 开朗 的 感觉 

ae es 、 周 胶 、 张 昆 琪 、 权 威 等 进行 翻译 .参与 翻译 工作 的 还 有 刘 建 伟 、 IKIE 
FER, JAE, FZR, RMR, RLE, FEN, E. 本 书 的 出 版 是 集体 9 oh AUS A, 
前 导 工 作 室 全 体 工作 人 员 共 同 完成 了 本 书 的 录 排 、 校对 等 工作 由 于 时 间 仓 促 ， 且 译 者 的 水 
平 有 限 ， 在 翻译 过 程 中 难免 会 出 现 一 些 错误 ， 请 读者 批评 指正 
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现在 程序 员 都 面临 着 大 量 的 关于 应 用 程序 接口 (Application Programming Interface, API ) 
的 信息 ， 大 多 数 人 都 会 使 用 API 和 程序 库 ， 并 在 其 所 写 的 每 一 个 应 用 程序 中 实现 它们 ,但 是 很 
少 有 人 会 创建 或 发 布 新 的 能 广泛 应 用 的 API。 事 实 上 ， 程 序 员 似乎 倾向 于 循环 使 用 他 们 自己 的 
东西 ， 而 不 愿意 查找 能 满足 他 们 要 求 的 程序 库 ， 这 或 许 是 因为 写 特 定 应 用 程序 的 代码 要 比 查 
找 设计 好 的 API 容 易 。 

我 和 下 一 代 程 序 员 一 样 感到 心虚 : Ice (Chris Fraser 和 我 给 ANSIISO C 编 写 的 编译 器 ) 是 
建立 在 一 定 的 背景 之 EF 的 (在 《A Retargetable C Compiler: Design and Implementation 》 一 书 
中 有 关于 lcc 的 描述 ，Addison-Wesley, 1995 ), 编译 器 展示 了 这 样 一 种 应 用 程序 ,该 应 用 程序 
可 以 使 用 标准 接口 ， 并 且 能 够 创建 在 其 他 地 方 也 可 以 使 用 的 接口 。 这 类 程序 的 其 他 例子 还 有 
内 存 管 理 、 字 符 串 和 符号 表 以 及 链表 操作 等 等 。 但 是 lcc 仪 使 用 了 很 少 的 标准 C 库 函数 的 例 程 ， 
并 且 几 乎 没有 代码 能 够 直接 应 用 到 其 他 应 用 程序 中 。 

本 书 提 倡 的 是 一 种 基于 接口 及 其 实现 的 设计 方法 ， 并 且 通 过 对 24 个 接口 及 其 实现 的 描述 
详细 地 演示 了 这 种 方法 。 这 些 接口 涉及 到 计算 机 领域 的 很 多 知识 ， 上 其 中 包括 数据 结构 、 算 法 、 
字符 中 处理 和 并 发 程序 。 这 些 实现 并 不 是 简单 的 玩具 一 它们 是 为 在 产品 代 公 中 使 用 而 设计 
的 。 

C 编 程 语音 对 基于 接口 设计 方法 的 支持 是 极 少 的。 而 面向 对 象 的 语音 ， 像 C++ 和 Modula-3 ， 
则 鼓励 将 接口 与 实现 分 离 。 基 于 接口 的 设计 独立 于 任何 特定 的 语言 ,但 是 它 要 求 程 序 员 对 像 C 
一 样 的 语言 有 更 多 的 驾 双 能 力 和 更 高 的 警惕 性 ， 因 为 这 类 语言 很 容易 破坏 带 有 隐 含 实现 信息 
的 接口 ， 反 之 亦 然 。 

然而 ,一 旦 掌握 了 基于 接口 的 设计 方法 ， 就 能 够 在 服务 十 众多 应 用 程序 的 通用 接口 基础 
上 建立 应 用 程序 ， 从 而 加 速 开 发 。 在 一 些 Ct+ 环 境 中 的 基础 类 库 就 体现 了 这 种 效果 。 增 加 对 
现 有 软件 的 重用 一 一 接口 实现 库 ， 能 够 减少 初始 开发 成 本 ， 辐 时 还 能 减少 维护 成 本 ， 因 为 应 
用 程序 的 更 多 部 分 都 建立 在 经 过 良好 测试 的 通用 接口 的 实现 之 上 > 

本 书 提供 的 24 个 接口 来 有 多 种 来 源 ， 并 且 针 对 本 书 特别 做 了 修正 。 一 些 数据 结构 中 的 接 
口 一 一 抽象 数据 类 型 ， 源 于 lcc 代 码 和 70 年 代 末 80 年 代 初 所 做 的 Icon 编程 语言 的 实现 代码 ( 参 
见 R.E.Griswold and M.T.Griswold, The Icon Programming Language, Prentice Hall, 1990 ). 其 
他 的 接口 来 自 男 外 一 些 程序 员 的 著作 ， 我 们 将 会 在 得 -Bi med 浅 析 ”部 分 给 出 详细 
信息 。 

书 中 提供 的 一 些 接口 是 针对 数据 结构 的 ， 但 本 尿 厅 是 - -本 数据 结 构 的 书籍， 内 此 ， 本 书 
侧重 点 在 算法 引擎 包装 数据 结构 以 供应 用 程序 使 用 一 一 而 不 在 数据 结构 算法 本 身 。 然 而 ， 
好 的 接口 设计 总 是 依赖 于 恰当 的 数据 结构 和 有 效 的 算法 ， 办 此 ， 本 书 与 Robert Sedgewick 的 
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(Algorithms in C ) (Addison-Wesley, 1990 ) 这 样 的 传统 数据 结构 和 算法 教材 是 相得益彰 的 。 

大 多 数 章 节 会 描述 一 个 接口 及 其 实现 ; 有 少数 章节 还 会 描述 与 其 相关 的 接口 。 每 一 章 的 
“接口 ”部 分 将 会 单独 给 出 一 个 明确 且 详 细 的 接口 描述 。 对 于 兴趣 仪 在 于 接口 的 程序 员 来 说 ， 
这 些 节 就 相当 于 一 本 参考 手册 。 少 数 章节 还 会 包含 “示例 ”部 分 ， 该 节 将 会 说 明 在 一 个 简单 
的 应 用 程序 中 一 个 或 多 个 接口 的 使 用 。 

每 章 的 “实现 ”部 分 将 会 详细 地 介绍 本 章 接口 的 实现 代码 。 在 一 些 例子 中 ， 对 一 个 接口 
将 会 给 出 多 种 实现 方法 ， 以 展示 基于 接口 设计 的 优点 。 这 些 节 对 于 修改 或 扩展 一 个 接口 或 是 
设计 一 个 相关 的 接口 将 大 有 神 益 。 许 多 练习 题 将 会 探究 一 些 设计 与 实现 的 其 他 可 行 方法 。 如 
果 仅 是 为 了 理解 如 何 使 用 接口 ， 可 以 不 用 阅读 “实现 ”一 节 。 

接口 、 示 例 和 实现 都 以 literate 程 序 的 方式 给 出 ， 换 句 话说 ， 源 代码 及 其 解释 是 按照 最 适 
合理 解 代码 的 顺序 交织 出 现 的 。 代 码 可 以 自动 地 从 本 书 的 文本 文件 中 抽取 ， 并 按 C 编 程 语 言 所 
规定 的 顺序 组 合 起 来 。 其 他 包含 C 语 言 literate 程 序 设 计 例 子 的 书籍 有 《A Retargetable C 
Compiler 》 和 D.E.Knuth 写 的 《The Stanford GraphBase: A Platform for Combinatorial 
Computing ) ( Addison-Wesley, 1993 ), 














组 织 


本 书 材料 可 分 成 下 面 的 几 大 类 : 
基础 1. 简介 
2. 接口 与 实现 
4. 异常 与 断言 
5 .内存 管理 
6. 进 一 步 内 存 管理 
数据 结构 7. 链表 
8 
9 





13. 位 向 量 
字符 串 3. 原子 
14. 格 式 化 
15. 低级 字符 出 
16. 高 级 字符 中 
算法 17. 扩 展 精 度 算法 
18. 任意 精度 算法 
19. 多 精度 算法 
线程 20. 线程 





IX 


通读 第 1 到 4 章 的 内 容 将 使 大 多 数 读者 有 所 神 益 ， 央 为 这 几 章 形成 了 本 书 其 余部 分 的 框架 。 
剩 下 的 章 可 以 按 任何 顺序 阅读 ， 尽 管 后 面 的 某 些 章 会 参考 其 前 面 的 内 容 。 

第 1 章 涵盖 了 literate 程 序 设 计 和 编程 风格 与 效率 的 讨论 ; 第 2 章 提出 并 描述 了 基于 接口 的 
设计 方法 ， 定 义 了 相关 的 术语 ， 并 演示 了 两 个 简单 的 接口 及 其 实现 ; 第 3 章 描述 了 原子 接口 的 
实现 原型 ， 这 是 本 书 中 最 简单 的 具有 产品 质量 的 接口 ; 第 4 章 介 绍 了 在 每 -个 接口 中 都 会 用 到 
的 异常 与 断言 ; 第 5 、6 章 描述 了 几乎 所 有 的 实现 都 会 用 到 的 内 存 管 理 ;， 其 余 的 每 一 章 都 描述 
了 一 个 接口 及 其 实现 。 


使 用 建议 


我 们 假设 本 书 的 读者 已 经 了 解 了 在 大 学 介绍 性 的 编程 课程 中 涉及 到 的 关于 C 语 言 的 内 容 ， 
并 且 都 实际 使 用 过 类 似 于 C 算 法 的 以 文本 形式 给 出 的 基本 数据 结构 。 在 普林斯顿 ， 这 本 书 的 内 
容 被 用 做 大 学 二 年 级 学 生 到 研究 生 一 年 级 的 系统 编程 课程 的 教材 。 许 多 接口 使 用 的 都 是 高 级 C 
语言 编程 技巧 ， 比 如 说 不 透明 的 指针 和 指向 指针 的 指针 等 等 ， 因 此 这 些 接口 都 是 非常 好 的 技 
术 实 例 ， 且 其 中 的 技术 在 系统 编程 和 数据 结构 课程 中 非常 实用 。 

这 本 书 可 以 以 多 种 方式 在 课堂 上 使 用 ， 最 简单 的 就 是 用 在 面向 项 目的 课程 中 。 例 如 ， 在 
编译 原理 课程 中 ， 学 生 通 常 需要 为 一 个 玩具 语言 编写 一 个 编译 器 ; 在 图 形 学 课程 中 同样 也 经 
常 有 一 些 实际 的 项 目 。 许 多 接口 消除 了 具体 项 目 所 需要 的 一 些 令 人 厌烦 的 编程 ， 这 样 就 使 得 
这 类 课程 中 的 项 目 得 到 简化 。 这 种 用 法 可 以 帮助 学 生 认识 到 在 项 目 中 重用 代码 可 以 节省 大 量 
劳动 ， 并且 引 导 学 生 在 其 项 目 中 对 自己 所 做 的 部 分 尝试 使 用 基于 接口 的 设计 。 后 者 在 团队 项 
目 中 特别 有 用 ， 因 为 “现实 世界 ”中 的 项 目 通 常 都 是 团队 项 目 。 

普林斯顿 大 学 二 年 级 系统 编程 课程 的 主要 内 容 是 接口 与 实现 ， 其 课外 作业 要 求学 生成 为 
接口 的 用 户 、 实 现 者 和 设计 者 。 例 如 其 中 的 一 个 作业 ， 我 在 第 8.1 节 中 描述 的 Table 接 口 、 它 的 
实现 的 目标 代码 以 及 第 8.2 节 中 描述 的 单词 频率 程序 wf 的 说 明 ， 让 学 生 只 使 用 我 们 为 Table 设 计 
的 目标 代码 来 实现 wf。 在 下 一 个 作业 中 ， 他 们 得 到 了 wf 的 目标 代码 但 必须 实现 Table。 有 时 ， 
我 颠倒 这 些 作业 ， 但 是 这 两 种 顺序 对 大 部 分 学 生来 说 都 是 很 不 -- 样 的 。 他 们 不 习惯 在 他 们 的 
大 部 分 程序 中 只 使 用 目标 代码 ， 并且 这 些 作业 通常 都 是 他 们 第 一 次 接触 接口 和 程序 说 明 中 使 
用 的 半 正 式 表 示 法 。 

最 初 布置 的 作业 也 介绍 了 作为 接口 说 明 必 要 组 成 部 分 的 可 检查 的 运行 时 错误 和 断言 
(assertion )。 经 过 几 个 这 样 的 作业 之 后 ， 学 生 们 才 开 始 理解 这 些 概念 的 意义 。 我 禁止 了 突 发 性 
(unannounced ) H, UL. Ie UL zi ERU GENI SCR AS RK). JB BR 的 程序 将 被 判 
为 零 分 ， 这 样 做 似乎 过 于 苛刻 , 但 是 它 能 够 引起 学 生 们 的 注意 ; 而 且 也 能 够 理解 安全 语言 的 
好 处 ， 例 如 ML 和 Modula-3， 在 这 些 语言 中 ， 不 会 出 现 突 发 性 崩溃 ( 这 种 分 级 策略 没有 它 听 上 
去 那么 苛刻 ， 央 为 在 分 成 多 个 部 分 的 作业 中 ， 只 有 产生 冲突 的 屠 部 分 作业 才 会 得 到 惩罚 ， 而 
且 不 同 的 作业 将 得 到 不 同 的 分 数 。 我 给 过 许多 0 分 但 是 从 来 没有 因此 导致 任何 一 个 学 生 的 课 
程 成 绩 很 低 )。 

一 旦 学 生 们 有 了 属于 他 们 自己 的 少数 几 个 接口 后 ， 接 下 来 就 让 他 们 设计 新 的 接口 并 沿用 
他 们 以 前 的 设计 选择 。 例 如 ，Andrew Appel 最 言 欢 的 一 个 作业 是 一 个 原始 的 测试 程序 。 学 生 
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们 以 组 为 单位 设计 一 个 作业 需要 的 任意 算术 精度 的 接口 ， 作 业 的 结果 类 似 于 第 17 到 19 章 中 描 
述 的 接口 。 不 同 的 组 设计 的 接口 不 同 ， 完 成 后 对 这 些 接口 进行 比较 ， 一 个 组 对 另 一 个 组 设计 
的 接口 进行 评价 ， 这 样 做 很 有 启迪 作用 。Kai Li 的 需要 一 个 学 期 来 完成 的 项 目 也 达到 了 同样 的 
学 习 实践 效果 ， 该 项 目 使 用 TcMTK 系 统 (J.K. Ousterhout, (Tcl and the TkToolkit ), Addison- 
Wesley 1994 ) 以 及 学 生 们 设计 和 实现 的 编辑 程序 专用 的 接口 ， 构 建 了 一 个 划 于 X 的 编辑 程序 。 
Tk 本 身 就 提供 了 男 一 个 很 好 的 基于 接口 设计 的 例子 。 

在 高 级 课程 中 ， 我 通常 把 作业 打包 成 接口 ， 让 学 生 自 比 地 修改 和 改进 ,甚至 改变 作业 的 
目的 。 给 他 们 一 个 出 发 点 可 以 减少 完成 作业 所 需 的 时 间 ， 并 允许 他 们 做 一 些 实质 性 的 修改 ， 
这 样 亚 励 了 有 创造 性 的 学 生 去 探索 新 的 解决 办 法 。 通 常 ， 那 些 不 成 功 的 方法 比 成 功 的 方法 更 
有 教育 意义 。 学 生 不 可 避免 地 会 走 错 路 ， 为 此 也 付出 了 更 多 的 开发 时 间 。 但 只 有 当 他 们 事后 
再 回 过 头 来 看 ， 才 会 了解 所 犯 的 鲁 误 ， 也 才 会 知道 设计 一 个 好 的 接口 是 很 困难 的 ， 但 是 值得 
付出 努力 ， 而 且 到 最 后 ， 他 们 几乎 都 会 转 到 基于 接口 的 设计 上 来 。 


如 何 得 到 本 书 的 软件 
本 书 中 的 软件 已 经 在 以 下 的 平台 上 通过 了 测试 : 














SPARC SunOS 4.1 lec 3.5 
gcc 2.7.2 

Alpha OSF/1 3.2A lcc 4.0 
gcc 2.6.3 
CC 

MIPS R3000 IRIX 5.3 lcc 3.5 
gcc 2.6.3 
cc 

MIPS R3000 Ultrix 4.3 lec 3.5 
gcc 2.5.7 

Pentium Windows 95 Microsoft Visual C/C++ 4.0 


Windows NT 3.51 


eee 

其 中 少数 实现 是 针对 特定 机 器 的 ; 这 些 实现 假设 机 器 使 用 的 是 二 进 制 补 码 表示 的 整数 和 
IEEE 浮 点 算术 ， 并 且 无 符号 的 长 整数 可 以 用 米 保存 对 象 指针 ， 

本 书 中 所 有 的 源 代码 在 ftp.cs.princeton.edu 的 日 某 pub/packages/cii 下， 用 医 名 账号 就 可 以 
得 到 。 使 用 ftp 客 户 端 软件 连接 到 ftp.cs.princeton,ednu ， 转 到 pub/packages/cii 目 录 ， 下 载 
README 文 件 ， 文 件 中 说 明了 目录 的 内 容 以 及 如 何 下 载 出 版 物 。 

大 多 数 最 新 的 出 版 物 通常 都 是 以 ciixy.tar.gz 或 ciixy.zip 的 文件 名 存储 的 ， 其 中 xy 是 版 本 号 ， 
例如 10 是 指 版 本 1.0 。ciixy.tar.gz 是 用 gzip 压缩 的 UNIX tar cft, 而 ciixy.zip 是 与 PKZIP 2.04g 版 
兼容 的 ZIP 文 件 。ciixy.zip 中 的 文件 都 全 DOS/Windows 下 的 文本 文件 ， 每 一 行 是 以 回 车 和 换行 
符 结 束 的 。ciixy.zip 同 时 也 可 以 在 美国 在 线 、 CompuServe 以 太 其 他 在 线 服务 器 上 得 到 . 

在 World Wide Web 中 的 URL 地 址 http:/www.cs.princeton.edu/software/cii/ 上 同样 也 可 以 得 
到 相应 的 信息 。 该 页 面 还 包括 了 一 些 错误 报告 说 明 。 
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第 1 章 (de T 


一 个 大 型 程序 通常 是 由 许多 小 模块 组 成 的 。 这 些 模 块 给 出 了 程序 中 使 用 的 函数 、 过 程 和 
数据 结构 。 理 想 的 情况 下 ， 大 部 分 模块 都 是 现成 的 并 日 都 来 自 于 库 函 数 ; 只 有 那些 正在 开发 
的 应 用 程序 专用 的 模块 需要 从 头 气 、 假 淡 库 代码 已 经 彻底 测试 过 ， 那 么 只 有 那些 应 用 程序 专 
用 的 代码 才 可 能 包含 错误 ， 内 此 程序 调 坛 可 以 只 上 限定 在 这 些 代 码 中 ， 

但 不 幸 的 是 ,这 些 理论 上 的 理想 情况 在 实际 开发 中 很 少 发 生 - 大 多 数 程序 都 是 从 头 书写 , 
且 一 般 只 在 使 用 WO 和 存储 器 管理 等 最 低级 设备 时 才 会 使 用 库 函 数 。 即 使 对 这 类 低级 组 件 ， 
程序 员 也 常常 编写 应 用 程序 专用 的 代码 ; 比如 说 ， 在 应 用 程序 中 ,用 定制 的 存储 器 管理 函数 
替代 C 语 言 库 函数 malloc 和 free 旦 经 常会 出 现 的 。 

出 现 这 种 情况 有 几 个 组 诊 质 疑 的 理由 : 其 -一 是 健 半 性 强 、 设 计 良 好 的 通用 模块 库 很 少 。 
其 中 一 些 可 使 用 的 库 都 很 平 席 且 缺少 标准 、C 语 启 库 从 1989 年 起 就 已 经 标准 化 了 ， 但 青 到 最 
近 才 出 现在 大 部 分 平台 中 。 

另 一 个 理由 就 是 库 的 大 小 : 一 些 库 太 大 了 以致 于 很 难 掌握 它们 ， 如 果 掌 握 这 些 库 函 数 所 
需要 的 努力 接近 于 编写 应 用 程序 所 花费 的 精力 ， 程 序 员 很 可 能 为 了 方便 而 重新 实现 他 们 所 需 
要 的 邦 部 分 库 沼 数 。 最 近 发 展 迅 速 的 用 户 界面 库 通 常 就 在 在 这 个 间 题 。 

程序 库 的 设计 和 实现 是 很 困难 的 。 没 计 者 必须 小 心 处 理 通用 性 、 简 单 性 和 有 效 性 问题 。 
如 果 一 个 程序 库 中 的 例 程 和 数据 结构 太 通用 了 ， 就 有 可 能 导致 使 用 困难 或 难于 达到 它们 想 要 
达到 的 目的 。 如 果 它 们 太 简 单 了 了， 就 可 能 不 满足 应 用 程序 的 使 用 需要 。 如 果 它 们 太 易 混淆 
编程 者 也 不 会 使 用 它们 。C 语 言 库 本 身 有 一 些 容易 混淆 的 例子 ,例如 它 的 realloc 函数 。 

程序 库 的 实现 省 面临 着 类 似 的 困难 。 即 使 设计 做 得 很 好 ， 如 果实 现 得 不 好 也 无 法 吸引 用 
户 。 如 果 一 个 实现 运行 太 慢 或 代码 量 太 大 或 内 是 感觉 上 是 这 样 一 一 编程 者 也 会 设计 他 们 
自己 的 程序 来 代替 库 函 数 。 最 坏 的 情况 是 ， 如 果 一 个 实现 有 错误 ， 于 么 它 将 打破 上 述 理 想 状 
态 并 且 使 得 程序 库 变 得 毫 无 用 处 ， 

本 书 描述 一 个 程序 库 的 设计 和 实现 ， 该 程序 库 适 用 于 用 C 语 言 编 写 的 各 种 应 用 。 这 个 
程序 库 给 出 了 一 系列 模块 ， 为 “小 规模 编程 (programming-in-the-small )” 提 供 函 数 和 数据 
结构 。 这 些 模 块 适合 用 作 应 用 程序 中 的 “零件 ”或 只 有 几 千 行 的 应 用 程序 组 件 。 

在 接 下 来 的 章节 中 所 描述 的 大 部 分 工具 都 在 大 学 的 数据 结构 和 算法 课程 中 涉及 到 了 。 但 
是 ,在 本 书 中 ,更 多 的 注意 旋 将 被 放 在 它们 是 如 何 打包 的 ， 以 及 怎样 使 它们 更 健壮 上 。 每 个 
模块 都 给 出 了 一 个 接口 及 其 实现 。 在 第 2 章 中 讲述 的 设计 方法 将 模块 的 说 明 从 它们 的 实现 中 
分 离 出 来 ， 提 高 了 说 明 的 清晰 度 和 精确 度 ， 并 且 有 利 十 提供 健壮 的 实现 。 
































1.1 literate 程序 


本 书 不 是 用 规则 来 描述 模块 ， 而 是 用 例子 。 等 齐 都 完整 地 人 氢 述 了 一 个 或 两 个 接口 以 及 它 
们 的 实现 。 这 些 描述 都 是 用 literate 程 序 表示 的 ， 即 接口 及 其 实现 代码 和 解释 它 的 语句 交织 一 
起 。 更 重要 的 是 ,本 书 每 章 文 字 本 身 都 是 它 所 描述 的 接口 和 实现 的 源 代 码 。 代 码 自 动 提取 自 
本 书 的 文本 ， 所 见 即 所 得 。 

literate 程 序 山 英文 和 带 标签 的 程序 代码 块 组 成 .例如 : 





(compute x e y)= 
sum = 0; 


for (i20; i «n; i++) 
sum += x[il*y[il; 
定义 了 一 个 名 为 <compute x -y> WARR; 它 的 代码 计算 了 数组 x 和 y 的 点 积 。 这 个 块 的 使 用 
是 通过 在 另 一 个 代码 块 中 调用 它 来 实现 的 ， 
(function dotproduct)= 


int dotProduct(int x{], int y(], int n) 1 
int i, sum; 


(compute x e y) 
return sum; 


} 


当代 码 块 <function dotproduct> 从 包含 该 章 的 文本 文件 中 提取 出 来 的 时 候 ， 它 的 代码 被 
原样 复制 ， 块 被 其 代码 代替 ， 依 此 类 推 。 因此 提取 <function dotproduct> 的 结果 是 包含 以 下 
代码 的 文件 : 


int dotProduct(int x[], int yf], int n) { 
int i, sum; 


sum = Q; 

for (i = 0; i < n; i++) 
sum += x[ij]*y[i]; 

return sum; 


} 

literate 程 序 可 以 用 许多 小 的 单元 表示 ,但 是 文档 却 是 完整 的 。 英 文 包含 传统 的 程序 注释 ， 
并 且 不 局 限于 程序 语言 的 注释 习惯 ， 

代码 块 工具 (chunk facility ) 将 literate 程 序 从 由 编程 设计 语言 决定 的 次 序 限制 中 解脱 出 
来 。 代 码 可 以 用 最 容易 理解 的 任何 一 种 次 序 显 示 ， 而 不 是 用 由 规则 指定 的 次 序 显示 ， 例 如 程 
序 实体 必须 在 使 用 它们 之 前 定义 。 

本 书 中 使 用 的 literate 编 程 系统 还 有 几 个 特征 ， 这些 特征 有 助 于 分 段 描述 程序 。 为 了 说 明 
这 些 特征 并 提供 一 个 literate C 程序 的 完整 例子 ， 本 节 接 下 来 描述 了 一 个 名 为 double 的 程序 ， 
用 于 检测 输入 中 相 邻 且 相同 的 单词 ， 例 如 “the the."。 例 如 如 下 UNIX 命 令 : 














B 个 3 








% double intro.txt inter. txt 
intro.txt:10: the 
inter.txt:110: interface 
inter.txt:410: type 
inter.txt:611: if 


说 明 “the” 在 文件 intro.txt 中 出 现 了 两 次 ， 第 二 次 出 现在 第 10 行 ; 例 中 还 显示 了 在 
inter.txt 文 件 中 出 现 了 两 次 “interface”、“type ”和 “if”。 如 果 double 不 带 参数 调用 ， 那 么 它 
从 标准 输入 中 读 取 数 据 ， 输 出 时 省 略 文 件 名 。 例 如 : 

% cat intro.txt inter.txt | double 

10: the 

143: interface 

343: type 

544: if 
在 本 书 示 例 中 ， 用 户 输入 的 命令 用 斜体 表示 ， 而 输出 用 代码 体 表 示 。 

下 面 我 们 看 看 double ， 首 先 定义 一 个 根 代 码 块 (root chunk), 程序 的 每 个 组 成 部 分 用 其 
他 代码 块 表示 : 

(double.c 4)= 

(includes 5) 
(data 6) 


(prototypes 6) 
(functions 5) 


为 了 方便 ， 根 代码 块 用 程序 文件 名 标识 ， 通 过 展开 代码 块 <double.c 4> 展 开 程序 。 其 他 代码 
块 用 double 的 顶级 组 件 标 识 。 这 些 组 件 按照 由 C 程 序 设计 语言 规定 的 次 序列 出 , 但 是 它们 可 
以 按 任何 次 序 给 出 。 
«double.c 4> 中 的 数字 4 是 代码 块 定义 开始 的 页 码 。 在 <double.c 4» 中 使 用 的 代码 块 中 的 
数字 是 它们 定义 开始 的 页 码 ， 这 些 页 码 有 助 于 读者 浏览 代码 。 
main 函数 处 理 double 的 参数 。 它 打开 每 个 文件 并 调用 doubleword 扫 摘 文 件 
(functions s 


int main(int argc, char *argv[]) ( 
int i; 


for(is1;ic« argc; i++) { 
FILE *fp = fopen(argv[i], "p"; 
if (fp == NULL) ( 
fprintf(stderr, "Xs: can't open '%s' (%s)\n", 
argv[0], argv[i], strerror(errno)); 
return EXIT_FAILURE; 


} else { r 
doubleword(argv[i], fp); 
fclose(fp); 

} 


B 
* 


if (argc == 1) doubleword(NULL, stdin): 
return EXIT SUCCESS; 
H 


(includes sys 
#include <stdio.h> 
#include <stdlib.h> 
#include <errno.h> 


函数 doubleword 需 要 从 文件 中 读 取 单词 。 程 序 要 求 一 个 单词 必须 是 一 个 或 多 个 无 空格 
符 ， 并 且 不 区 分 大 小 写 。getword 从 一 个 打开 的 文件 中 将 下 一 个 单词 读 人 buf[0..size-1] 并 
回 1; 读 到 文件 末尾 时 ， 返回 0。 


(functions 5)+= 
int getword(FILE *fp, char *buf, int size) { 
int c; 


字 
返 


c = getc(fp); 
(scan forward to a nonspace character or EOF 6) 


(copy the word into buf[0..size-1] 7) 
if (c != EOF) 
ungetc(c, fp); 
return (found a word? 7); 
} 


(prototypes 6)= 

int getword(FILE *, char *, int); 

这 个 代码 块 说 明了 literate 编 程 的 另 一 个 特征 : 代码 块 标识 <functions 5> 后 面 跟 的 “+ =” 
指出 getword 的 代码 是 附加 在 代码 块 <functions 5> 后 的 ， 因 此 代码 块 现在 包含 main 和 getword 
的 代码 。 这 个 特征 允许 一 个 代码 块 中 的 代码 一 次 只 写 一 部 分 。 后 续 扩 充 定义 的 代码 块 标签 中 
的 页 码 指向 的 是 该 代码 块 中 的 第 一 个 代码 段 定义 ， 因 此 根据 它 可 以 很 容易 找到 一 个 代码 块 定 
义 的 开始 。 

既然 getword 在 main 之 后 ， 因 此 在 main 中 调用 getword 需 要 -- 个 原型 ， 这 也 就 是 代码 块 
«prototypes 6> 的 目的 。 这 个 代码 块 在 某 种 意义 上 可 以 说 是 对 C 的 必须 在 使 用 之 前 先 声明 规则 
的 让 步 , 但 是 如 果 定 义 是 一 致 的 ,并 月 在 根 代码 块 中 该 代码 块 出 现在 <functions 5» zz 88, 3b 
么 函数 就 可 以 以 任意 次 序 给 出 。 

除了 从 输入 中 得 到 下 一 个 单词 ， getword 还 会 在 遇 到 换行 符 时 将 linenum 加 1， 
doubleword 会 在 显示 输出 结果 时 使 用 linenum 。 


(data 6)= 
int linenum; 


(scan forward to a nonspace character or EOF 6)= 
for ( ; c != EOF && isspace(c); c = getc(fp)) 
if (c == '\n’) 


BS M 





linenum++; 


(includes 5)+= 
#include <ctype.h> 


linenum 的 定义 给 出 了 一 个 与 C 要 求 的 顺序 不 一 样 的 例子 ， 代 码 块 可 以 按 任何 次 序 放置 。 
在 这 里 ，linenum 是 在 第 一 次 使 用 时 给 出 定义 ， 而 不 是 像 C 中 所 要 求 的 那样 在 文件 的 开始 处 给 
出 或 在 定义 getword 之 前 给 出 。 

size 的 值 是 对 存储 在 getword 中 单词 长 度 的 限制 ，getword 丢 弃 多 余 的 字符 并 将 大 写字 符 
转换 成 小 写字 符 : 

(copy the word into buf [0..size-1] 7)= 


{ 
int i = 0; 
for ( ; c != EOF && !isspace(c): c = getc(fp)) 
if (i < size - 1) 
buf[i++] = tolower(c); 
if Gi < size) 
buf[i] = 'NO'; 
} 


索引 i 与 size-! 作 比较 ， 以 保证 在 单词 的 末尾 有 空间 存储 一 个 空 字 符 ; 证 语句 保证 赋值 操作 能 
够 处 理 size 为 0 的 情况 ,这 种 情况 在 double 中 不 会 发 生 ， 但 是 这 种 保护 性 编程 有 助 于 发 现 “不 
可 能 发 生 ” 的 错误 。 

getword 剩 下 的 工作 只 是 : 如 果 buf 中 存在 一 个 单词 就 返回 1 ， 其 他 情况 则 返回 0 ; 


(found a word? 7)= 


buf[0] != 'XQ' 
这 个 定义 表明 ， 代 码 块 并 不 - - 定 要 与 C 语 句 或 任何 其 他 语言 的 语法 单元 相对 应 , 它们 只 是 简 
单 的 文字 描述 。 


doubleword 读 人 每 个 单词 ， 并 将 它 与 前 面 的 单词 做 比较 ， 判 断 是 否 重 复 。 它 只 检查 以 字 
母 开 头 的 单词 : 


(functions 5)+= 
void doubleword(char *name, FILE *fp) { 
char prev[128], word[128]; 


linenum = 1; 
prev[0] 'NO'; 
while (getword(fp, word, sizeof word)) { 
if Cisalpha(word[0]) && strcmp(prev, word)==0) 
(word is a duplicate 8) 
strcpy(prev, word); 


j 


(prototypes 6)+= 


6 #1 


void doubleword(char *, FILE *); 
(includes 5)+= 
#include <string.h> 
‘ath oR IRA BH, (BIER, SAAC RRM SRA fname RY Z: BJ AHA: 
(word is a duplicate 8)= 
if Cname) 
printfC"%s:", name); 


printf("%d: %s\n", linenum, word); 
} 


这 个 代码 块 定义 为 一 个 合成 语句 ， 它 可 以 作为 使 用 它 的 站 语句 的 结果 出 现 。 
1.2 编程 风格 


double 实 例 说 明了 本 书 许多 程序 中 所 使 用 的 格式 上 的 习惯 。 对 程序 来 说 ,更 重要 的 是 易 
于 人 们 阅读 和 理解 ， 而 不 是 让 计算 机 更 容易 编译 。 编 译 器 不 在 乎 变量 的 各 字 ， 也 不 在 乎 代码 
是 如 何 排版 的 或 程序 是 怎样 被 划分 为 模块 的 。 但 是 ， 这 类 细节 对 于 使 程序 员 更 容易 地 读 懂 一 
个 程序 有 很 大 的 影响 。 

本 书 中 的 代码 沿袭 C 程 序 的 格式 习惯 。 它 对 变量 、 类 型 和 例 程 的 命名 使 用 了 -一致 性 的 原 
则 ,并 且 将 格式 限定 为 一 致 缩 进 风格 。 格 式 习 惯 并 不 是 一 组 必须 不 惜 任何 代价 去 遵循 的 严格 
规则 ， 它 们 表述 的 是 一 种 寻求 最 大 可 读 性 和 可 理解 性 的 编程 乔 学 。 因 此 ， 这 些 规则 可 以 在 任 
何 需要 的 时 候 被 改变 ， 以 利于 强调 代码 的 重要 方面 或 使 复杂 的 代码 更 具 可 读 性 。 

通常 ， 对 全 局 变量 和 例 程 使 用 较 长 的 、 容 易 称 呼 的 名 字 ， 而 对 局 部 变量 用 短 的 名 字 ， 可 
能 就 是 普通 的 数学 记号 的 翻版 。 在 <compute x - y> 中 的 循环 变 匡 就 是 后 一 种 习惯 的 例子 。 基 
于 近 于 传统 的 目的 ， 对 索引 和 变量 使 用 长 名 通常 使 得 代码 更 难 读 懂 。 例 如 ， 在 下 面 的 代码 中 : 

sum = 0; 


for (theindex - 0; theindex « numofElements; theindex++) 
sum += x[theindex]*y[theindex]; 


变量 名 使 得 代码 读 不 懂 。 

变量 都 是 声明 在 它们 第 一 次 被 使 用 的 程序 代码 附近 ， 可 能 是 在 代码 块 中 。 例 如 ， 
getword 中 变量 linenum 的 声明 就 是 这 样 。 局 部 变量 尽 可 能 声明 在 使 用 它们 的 复合 语句 的 开始 
处 ， 例 如 <copy the word into buf[0..size-1] 7> 中 i 的 声明 。 

通常 ,过 程 和 函数 选择 的 名 字 应 能 反映 过 程 的 作用 以 及 函数 返回 值 。 因 此 ，getword 返 
回 输 入 中 的 下 一 个 单词 ,而 doubleword 寻 找 并 显示 至 少 出 现 两 次 的 单词 。 大 多 数 例 程 都 很 短 ， 
代码 不 超过 一 页 ; 代码 块 则 更 短 ， 通 常 不 到 12 行 。 

代码 中 几乎 没有 什么 注释 ， 因 为 包含 代 人 的 代码 块 周围 的 上 下 文 代 栓 了 注释 。 对 注释 格 
式 习 避 的 看 法 各 不 相同 。 本 书 遵循 C 语 言 编程 中 的 经 典 指导 ， 即 注释 尽 可 能 的 少 。 清晰 、 使 
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用 好 的 命名 以 及 有 缩 进 格式 的 代码 通常 就 能 解释 它 本 身 。 注 释 只 有 在 某 些 时 候 才 有 必要 D] 
如 数据 结构 的 细节 、 算 法 中 的 特殊 情况 以 及 异常 情况 等 等 。 编 译 器 不 能 检查 注释 和 代码 的 一 
致 性 ; 可 能 产生 误导 的 注释 比 没有 注释 更 糟 。 最 后 ,那些 杂乱 的 、 过 多 的 印刷 样式 中 的 注释 ， 
除了 给 代码 带 来 混乱 外 ， 其 他 什么 用 处 也 没有 。 

literate 编 程 避 免 了 在 注释 问题 中 的 许多 争论 , 因为 它 不 受 程序 设计 语言 注释 机 制 的 限制 。 
程序 员 可 以 使 用 最 能 传达 他 们 意图 的 任何 格式 ， 包 括 表 格 、 等 式 、 图 片 以 及 引用 。literate 
编程 提高 了 程序 的 正确 性 、 精 确 性 和 清晰 度 。 

本 书 的 代码 是 用 C 编 写 的 ， SA CIT ORE AS TNT. 
其 中 一 些 对 新 手 来 说 也 许 会 有 些 迷 惑 ， 但 是 他 们 如 果 想 熟练 使 用 C 的 话 就 必须 掌握 这 些 。 这 
A HNRRORR RSS RUN AE Ds acces 
BRE. RET FE BS WISIS — ERE EER) BLBU SE HEB FE 函数 strcpy 就 说 明了 老手 和 
新 手写 的 代码 之 间 的 差别 ， 后 者 的 代码 常 使 用 数组 : 

char *strcpy(char dst[], const char src[]) 4 


int i; 


for Ci = 0; src[i] != 'NO'; i++) 
dst[i] = src[i]; 

dst[i] = ’\0’; 

return dst; 


H 
而 老手 习惯 使 用 指针 : 
char *strcpy(char *dst, const char *src) ( 
char *s = dst; 


while (*dst++ = *src++) 
; 
return s; 


} 
这 两 种 代码 都 是 strcpy 合 理 的 实现 。 指 针 实现 版 本 使 用 了 最 普遍 的 习惯 用 法 ， 它 把 指针 赋值 、 自 
增 以 及 测试 赋值 的 结果 融合 到 一 个 单一 的 赋值 表达 式 中 。 它 同时 还 修改 了 它 的 参数 dst 和 sre ， 这 
在 C 中 是 可 以 接受 的 ， 因 为 所 有 的 参数 都 是 通过 值 传递 的 ， 也 就 是 说 参数 只 是 局 部 初始 化 。 

然而 在 某 种 情况 下 应 该 选择 数组 版 本 而 不 是 指针 版 本 实现 。 例 如 ， 对 所 有 的 程序 员 ， 不 
管 他 们 是 否 熟悉 C ， 数 组 版 本 都 更 容易 理解 。 而 指针 版 本 是 最 有 名 笃 验 的 C 程 序 员 常常 用 到 的 ， 
因此 也 是 程序 员 疯 读 现存 代码 时 最 有 可 能 遇 到 的 。 本 书 可 以 帮助 你 学 习 这 些 习 惯用 法 ， 理 解 
C 强 大 的 指针 ， 避 免 犯 常见 的 错误 。 


1.3 效率 
程序 员 看 上 去 对 效 这 有 些 迷 惑 。 他 们 可 能 要 花 几 个 小 时 修改 代码 以 使 其 运行 得 更 快 ， 可 
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不 幸 的 是 ， 这 种 努力 大 部 分 都 是 白费 的 ， 程 序 员 对 猜测 哪 段 程序 运行 时 间 比 较 长 的 直觉 是 非 
常 不 准 的 。 

使 程序 运行 得 更 快 ， 往 往 也 使 得 程序 变 得 越 来 越 大 ， 更 难 理解 的 是 ， 包 含 错误 的 可 能 性 
也 更 大 。 除 非 对 执行 时 间 的 度量 显示 出 程序 运行 得 太 慢 ， 否 则 没有 必要 进行 这 样 的 改变 。 程 
序 只 需要 运行 得 足够 快 而 不 必 尽 可 能 的 快 。 

进行 这 样 的 改变 通常 是 在 未 经 测试 的 纯 编程 环境 中 完成 的 。 如 果 程 序 运行 得 太 慢 ， 找 到 
它 的 瓶 绒 的 惟一 方法 就 是 度量 它 。 一 个 程序 的 瓶颈 很 少 发 生 在 你 猜 想 它们 发 生 的 地 方 ， 也 很 
少 是 由 你 猜测 的 原因 引起 的 。 即 使 你 找到 了 正确 的 地 方 ， 也 只 有 在 那个 地 方 花 费 的 运行 时 间 
占 运行 总 时 间 的 很 大 一 部 分 时 才 需 要 进行 这 样 的 修改 。 如 果 IO 占 了 60% 的 程序 运行 时 间 ， 
那么 在 查询 例 程 中 节省 1% 的 运行 时 间 是 没有 任何 意义 的 。 

进行 这 样 的 调整 通常 会 引 和 人 错误。 即便 是 运行 最 快 的 程序 ， 如 果 运 行 时 沿 溃 也 不 能 算 成 
功 ， 因 为 可 靠 性 比 效率 更 重要 。 从 长 远 来 看 ， 发 布 一 个 快 但 是 经 常 崩溃 的 软件 比 发 布 一 个 运 
行 稳定 而 又 足够 快 的 软件 花费 更 大 。 

通常 ， 这 样 的 调整 是 在 有 问题 的 层次 上 完成 的 。 本 身 就 很 快 的 算法 的 直接 实现 要 优 于 对 
本 身 运行 较 慢 的 算法 做 手工 调整 。 例 如 ， 压 缩 线性 查找 内 部 循环 外 的 指令 肯定 不 如 首先 使 用 
二 分 查找 更 有 效 。 

这 样 的 调整 不 能 改变 拙劣 的 设计 。 如 果 程 序 在 所 有 的 地 方 运行 都 慢 ， 那 么 这 种 低 效 表 现 
很 有 可 能 是 设计 本 身 的 问题 。 当 设计 源 于 编写 得 不 好 或 不 准确 的 问题 说 明 书 或 根本 没有 进行 
总 体 设计 时 ， 常 常会 出 现 这 种 情况 。 | 

本 书 中 的 大 部 分 代码 都 使 用 有 效 的 算法 ， 这 些 算法 在 一 般 情况 下 具有 良好 的 性 能 ， 而 且 
最 坏 情况 下 的 性 能 也 很 容易 刻画 。 它 们 在 大 部 分 应 用 中 对 典型 输入 的 执行 时 间 几 乎 总 是 足够 
快 的 ; 在 某 些 应 用 中 ， 性 能 可 能 会 有 问题 的 情况 也 能 明确 识别 出 来 。 

一 些 C 程 序 员 为 了 追求 效率 而 大 量 使 用 宏 指令 和 条 件 编译 指令 ， 本 书 尽 可 能 避免 使 用 这 
两 种 指令 。 为 了 避免 函数 调用 而 使 用 宏 指令 是 很 没有 必要 的 ， 只 有 当 客观 的 度量 表明 调用 的 
花费 可 能 超过 剩 下 代码 的 执行 时 间 时 才 有 必要 使 用 宏 指令 。1/0 是 少数 几 个 合理 使 用 宏 指令 
的 地 方 之 一 ,例如 标准 的 /0 函数 getc 、putc 、getchar 和 putchar 通 党 是 作为 宏 指 令 来 实现 的 。 

条 件 编译 语句 通常 用 来 设置 代码 以 适应 特定 的 平台 或 环境 ， 或 用 来 关闭 或 打开 代码 的 调 
试 。 这 些 都 是 实际 存在 的 问题 ， 条 件 编译 语句 通常 是 解决 它们 的 最 简单 方法 ， 但 总 是 使 得 代 
码 更 难 懂 。 通 常 更 有 用 的 方法 是 重 写 代码 来 实现 在 执行 的 过 程 中 选择 所 依赖 的 平台 。 例 如 ， 
可 以 选择 六 种 体系 结构 中 的 一 种 ， 在 执行 期 间 产 生 代 码 的 简单 编译 器 ， 即 交叉 编译 器 ， 比 必 
须 配 置 和 构造 六 种 不 同 的 编译 器 要 有 用 得 多 ， 而 且 也 更 容易 维护 。 

如 果 一 个 应 用 程序 必须 在 编译 时 间 内 进行 配置 ， 版 本 控制 工具 也 比 C 的 条 件 编译 工具 要 
好 。 代 码 并 不 是 用 预 处 理 指令 给 出 的 ， 这 些 预 处 理 指令 使 得 代码 很 准 阅读 ， 并 且 不 清楚 要 纺 
译 什么 ,不 要 编译 什么 。 而 用 版 本 控制 工具 ， 你 所 看 到 的 就 是 所 要 执行 的 ; 同时 ， 这 些 工具 
也 可 以 很 好 地 用 以 了 解 性 能 的 改进 。 
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参考 书目 浅 析 


ANSI 标 准 ( 1990 ) 以 及 技术 上 等 价 的 ISO 标准 (1990 ) 是 标准 C 程 序 库 的 权威 性 参考 书 
El, ,但 是 Plauger(1992) 给 出 了 一 个 更 详细 的 描述 和 一 个 完整 的 实现 。 同 样 地 ， 这 些 标准 是 关 
于 C 的 总 结 文章 ， 但 是 Kernighan 和 Ritchie ( 1988 ) 可 能 是 使 用 最 广泛 的 参考 书 。Harbison 和 
Steele (1995 ) 可 能 是 关于 标准 的 最 新 版 本 ， 而 且 它 也 叙述 了 如 何 书写 “干净 的 C 程 序 
(clean C )” 一 一 即 C 代 码 可 以 用 C++ 编 译 器 编译 。Jaeschke (1991) 将 标准 C 中 的 精华 精简 
成 紧凑 的 字典 格式 ， 它 对 于 C 程 序 员 来 说 是 一 本 非常 有 用 的 参考 书 。 

尽管 Kernighan 和 Plauger (1976) 用 特别 的 工具 包含 了 本 书 中 的 代码 ， 但 他 们 的 软件 工 
具 却 给 出 了 早期 literate 程 序 的 例子 。WEB 是 明确 为 literate 编 程 设 计 的 最 早 的 工具 之 , 
Knuth (1992 ) 叙述 了 WEB 和 它 的 一 些 变种 及 使 用 ; Sewell (1989 ) 是 一 本 关于 WEB 的 介绍 
指南 。Simpler 工 具 (Hanson 1987; Ramsey 1994 ) 对 提供 众多 WEB 的 核心 功能 大 有 帮助 。 
本 书 使 用 notangle , 它 是 Ramsey 的 noweb 系 统 中 一 种 展开 代码 块 的 程序 。noweb 同 样 也 被 
Fraser 和 Hanson (1995) 用 来 将 一 个 完整 的 C 编 译 器 表示 成 一 个 literate 程 序 。 这 个 编译 器 也 
足 一 个 交叉 编译 器 。 

double 摘 取 自 Kernighan 和 Pike (1984 )， 是 用 AWK 程 序 设计 语言 (Aho,Kernighan 和 
Weinberger 1988 ) 实现 的 。 尽 管 有 些 年 代 了 ， 但 Kernighan 和 Pike 仍 然 是 关于 UNIX 编 程 原理 
最 好 的 书 之 一 。 

学 习 好 的 编程 风格 的 最 好 方法 就 是 阅读 使 用 好 的 风格 书写 的 程序 。 本 书 沿袭 了 在 
KernighanfüPike (1984) 以 及 Kernighan Ritchie (1988 ) 中 使 用 的 经 久 不 衰 的 编程 风格 。 
Kernighan 和 Plauger (1978 ) 是 关于 编程 风格 的 最 经 典 的 一 本 书 ， 但 是 它 没 有 包含 任何 用 C 
与 的 例子 。Ledgard 的 简明 书籍 (1987 ) 提供 了 类 似 的 建议 ，Maguire (1993 ) 提出 了 一 个 从 
PC 编程 世界 出 发 的 观点 。Koenig (1989 ) 揭示 了 C 的 缺陷 并 且 突 出 说 明了 应 该 避免 之 处 。 
McConnell (1993) 提供 了 关于 程序 构造 许多 方面 的 有 用 建议 ， 并 且 从 正 反 两 方面 对 使 用 
goto 语 句 进行 了 讨论 。 

学 习 编 号 有 效 代码 的 最 好 的 方法 是 对 算法 有 全 面 的 基础 知识 并 阅读 其 他 有 效 的 代码 。 
Sedgewick (1990 ) 研究 了 所 有 大 多 数 程 序 员 应 该 知道 的 重要 算法 ，Knuth (1973a) 给 出 了 
基本 算法 的 详细 叙述 。Bentley (1982) 提供 了 170 页 的 关于 如 何 编写 有 效 代码 的 常识 和 好 的 
建议 。 








练习 


1.1 一 个 单词 以 换行 字符 结束 时 ， getword PR 7X fE«scan forward to a nonspace or EOF 6» 
中 而 不 是 在 <copy the word into buf[0..size-1] 7> 之 后 将 linenum 加 1， 说 明 理由 。 如 
果 linenum 在 <copy the word into buf[0..size-1] 7> 之 后 加 1 又 会 怎样 ? 

1.2 当 double 函 数 磁 到 输入 中 有 三 个 或 更 多 相同 单词 时 ， 输出 结果 是 什么 ? 修改 double 
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函数 以 保持 这 个 特征 。 


[3] 1.3 许多 有 经 验 的 C 程 序 员 会 在 strcpy 的 循环 中 进行 一 个 明确 的 比较 : 
char *strcpy(char *dst, const char *src) { 
char *s - dst; 


while C(*dst++ = *src++) != 'NO') 


return s; 
} 
这 个 显 式 比 较 避 免 了 赋值 错误 。 一 些 C 编 译 器 和 相关 的 工具 ， 像 Gimpel 软 件 公司 的 PC-Lint 和 
LCLint (Evans 1996 )， 当 赋值 的 结果 被 用 作 条 件 时 会 发 出 警告 ， 因 为 这 种 使 用 方法 是 一 个 
常见 的 错误 来 源 。 如 果 你 有 PC-Lint 或 LCLint ， 可 以 对 一 些 “测试 过 ”的 程序 做 这 个 实验 。 





第 2 章 接口 与 实现 


一 个 模块 由 两 部 分 组 成 : 接口 和 实现 。 接 口 指明 模块 要 做 什么 ， 它 声明 了 使 用 该 模块 的 
代码 可 用 的 标识 符 、 类 型 和 例 程 ， 实现 指明 模块 是 如 何 完 成 其 接口 声明 的 目标 的 。 一 个 给 定 
的 模块 通常 只 有 一 个 接口 ， 但 是 可 能 会 有 许多 种 实现 能 够 提供 接口 所 指定 的 功能 。 每 个 实现 
可 能 使 用 不 同 的 算法 和 数据 结构 ， 但 是 它们 都 必须 符合 接口 所 给 出 的 使 用 说 明 。 

客户 调用 程序 (client ) 是 使 用 某 个 模块 的 一 段 代码 。 客 户 调用 程序 导 人 接口 ; 而 实现 
导出 接口 。 客 户 调用 程序 只 需要 了 解 接口 即 可 。 实际 上 ， 它 们 可 能 只 有 某 个 实现 的 目标 代码 。 
由 于 多 个 客户 调用 程序 是 共享 接口 和 实现 的 ， 因 此 使 用 实现 的 目标 代码 避免 了 不 必要 的 代码 
重复 。 同 时 也 有 助 于 避免 错误 ， 因 为 接口 和 实现 只 需 一 次 编写 和 调试 就 可 多 次 使 用 。 


2.1 #0 





接口 只 需要 指明 客户 调用 程序 可 能 使 用 的 标识 符 即 可 ， 应 尽 可 能 地 隐藏 一 些 无 关 的 表示 
细节 和 算法 ， 这 样 客户 调用 程序 可 以 不 必 依赖 于 特定 的 实现 细节 。 这 种 客户 调用 程序 和 实现 
之 间 的 依赖 一 一 看 合 可 能 会 在 实现 改变 时 引起 错误 ; 当 这 种 依赖 性 埋藏 在 一 些 关于 实现 
隐蔽 的 或 是 不 明确 的 假设 中 时 ， 这 些 错误 可 能 很 难 修复 。 因 此 一 个 设计 良好 且 描 述 精确 的 接 
口 应 该 尽量 减少 耦合 。 

C 语 言 对 接口 与 实现 的 分 离 只 提供 最 基本 的 支持 , 但 是 简单 的 约定 能 给 接口 /实现 方法 论 
带 来 巨大 的 好 处 。 在 C 语 言 中 ， 接 口 在 头 文件 声明 ， 头 文件 的 文件 扩展 名 通常 为 .h 。 该 头 文 
件 声 明了 客户 调用 程序 可 以 使 用 的 宏 、 类 型 、 数 据 结构 、 变 量 以 及 例 程 。 用 户 用 C 语 言 的 预 
AB IES include E A EE, 

下 面 的 例子 说 明了 本 书 的 接口 中 所 使 用 的 一 些 约定 。 接 口 

(aritn. m= 

extern int Arith max(int x, int y); 
extern int Arith min(int x, int y); 
extern int Arith div(int x, int y); 
extern int Arith mod(int x, int y); 


extern int Arith ceiling(int x, int y); 
extern int Arith floor (int x, int y); 


声明 了 6 个 整 型 算术 函数 ， 实 现 则 提供 了 每 个 函数 的 定义 。 
该 接口 的 名 字 为 Arith ， 接 口头 文件 也 相应 地 命名 为 arith.h。 接 口 的 名 字 以 前 级 的 形式 出 
现在 接口 的 每 个 标识 符 中 。 这 个 约定 不 是 很 合适 ， 但 C 语 言 几 乎 没有 提供 其 他 的 选择 。 文 件 


范围 内 的 所 有 标识 符 一 - 变 基 、 函 数 、 类 型 定义 以 及 枚 举 常 量 一 “共享 一 个 专用 名 字 空 间 ， 
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所 有 的 全 局 结构 、 共 用 体 以 及 枚 举 标签 共享 男 一 个 专用 名 字 空 间 。 在 一 个 大 型 程序 中 ， 很 容 
易 在 其 他 不 相关 的 模块 中 使 用 相同 的 名 字 ， 而 名 字 的 用 途 不 同 。 一 种 避免 名 字 冲 突 的 方法 就 
是 使 用 前 缀 ， 比 方 说 模块 名 。 大 型 程序 很 容易 就 有 几 千 个 全 局 标识 符 ， 但 是 通常 只 有 几 百 个 
模块 。 模 块 名 不 仅 提 供 了 合适 的 前 缀 ， 而 且 还 有 助 于 整理 客户 调用 程序 代码 。 

Arith 接 口 还 提供 了 一 些 标准 C 函 数 库 中 没有 的 但 很 有 用 的 函数 ， 并 为 除法 和 取 模 提供 了 
良好 的 定义 ， 而 标准 C 中 并 没有 给 出 这 些 操作 的 定义 或 只 提供 基于 实现 的 定义 。 

Arith_min 和 Arith_max 返 回 其 整 型 参数 中 的 最 小 值 和 最 大 值 。 

Arith_div 返 回 y 除 以 x 得 到 的 商 ，Arith_mod 返 回 相 应 的 余数 。 当 x 和 y 同 为 正 或 同 为 负 时 ， 
Arith. div(x, y) ft Tx/y, Arith_mod(x, y) 等 价 于 x9%y。 而 当 操 作 数 的 符号 不 相同 时 ，C 的 内 艇 
操作 的 返回 值 就 取决 于 具体 的 实现 。 当 > 等 于 0 时 ，Arith_div 和 Arith_mod 也 等 价 于 xy 和 x95y。 

标准 C 认 为 只 要 x/y 合 法 ，(z/7) * y+x%y 就 一 定 等 于 。 当 其 中 一 个 操作 数 是 负数 的 时 候 ， 
这 种 语义 允许 整数 除法 向 零 或 向 无 穷 小 取 整 。 例 如 ， 如 果 -13/5 等 于 -2， 那 么 标准 C 就 认 
为 -13%5 一 定 等 于 -13-(-13/5) + 5=-13-(-2) - 52-3; 但 是 如 果 -13/5 等 于 -3， 奢 么 -13%5 就 
等 于 -13- (-3) .5=2。 

因此 内 峙 的 操作 只 对 正 操作 数 有 用 。 标 准 库 函 数 div 和 1ldiv 接 收 两 个 整数 或 长 整数 作为 输 
和 ,返回 商 和 余数 ， 并 存 人 一 个 结构 中 相应 的 字段 quot 和 rem。 其 语义 已 定义 好 了 :， 它们 总 
是 向 零 取 整 ， 因 此 div(-13,5).quot 总 是 等 于 -2 。Arith_div 和 Arith_mod 的 语义 也 同样 定义 好 
fi: 它们 总 是 趋 近 数 轴 的 左 侧 取 整 ; 当 操 作 数 符号 相同 时 趋 近 于 0， 而 当 操作 数 的 符号 不 同 
时 趋 近 无 穷 小 ,因此 Arith_div(-13 ，5) 返 回 -3 。 

Arith_div 和 Arith_mod 都 是 用 更 精确 的 数学 术语 定义 的 。Arith_div(x, 人 是 不 超过 实数 z 
的 最 大 整数 ， 其 中 z 满 足 z ' y=x。 因 此 ， 若 x=-13 ，y=5 或 x=13 ,y=-5， 那么 z=-2.6， 所 以 
Arith_div(-13,5) 的 结果 是 _3。 Arith_mod(x,y) 被 定义 为 X-y， Arith_div(x,y)， 因 此 Arith_mod 
(-13,5) 等 于 -13-5 .(-3)=2。 

函数 Arith_ceiling 和 Arith_floor 遵 循 类 似 的 约定 。Arith_ceiling(x,y) 返 回 不 小 于 实数 商 x/y 
的 最 小 整数 ， 而 Arith_floor(x,y) 返 回 不 超过 实数 商 x/y 的 最 大 整数 。 对 所 有 的 操作 数 ， 
Arith_ceiling 返 回 x/y 数 轴 右 边 的 整数 ， 而 Arith_floor 返 回 x/y 数 轴 左 边 的 整数 。 例 如 ， 








Arith_ceiling( 13,5) = 13⁄5 = 26 = 3 
Arith ceiling(-13,5) = -13/5 = -26 = -2 
Arith floor (13,5) = 13/5 = 26 = 2 
Arith floor (-13,5) = -13/5 = -26 = -3 


不 幸 的 是 ， 即 使 对 于 像 Arith 这 样 简单 的 接口 ， 也 要 遵循 这 种 繁琐 的 规定 ， 但 这 对 大 多 数 
接口 而 言 是 典型 的 和 必要 的 。 大 多 数 程序 设计 语言 在 它们 的 语义 中 都 存在 漏洞 ， 一 些 操 作 的 
准确 含义 被 错误 定义 或 根本 就 不 定义 。C 的 语义 弥补 了 这 些 漏洞 。 设 计 良 好 的 接口 也 能 堵 上 
这 些 漏 润 ， 对 于 缺少 定义 的 补充 定义 ， 对 语言 声明 了 但 没有 定义 或 只 在 实现 定义 了 的 行为 也 
做 了 明确 的 判断 。 

Artith 并 不 只 是 一 个 为 了 显示 C 的 缺陷 而 刻意 构造 的 例子 。 例 如 ， 对 于 包含 取 余 的 算法 ， 
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它 是 有 用 的 ， 就 像 在 散 列 表 中 使 用 的 那样 。 假 设 i 的 范围 是 从 0 到 N-1， 其 中 N 大 于 1 ， 每 次 i 加 
1 和 减 1 都 必须 以 入 为 模 。 也 就 是 说 ， 如 果 i 是 N-1， 那 么 it1 就 是 0; 相反 ， 如 果 i 是 0， 那 么 i--1 
MEN-L. RAR 

i Arith mod(i + 1, N); 

i = Arith mod(i - 1, N); 
才 是 i 加 减 1 的 正确 表达 式 。 表 达 式 i = (i+1)%N 同 样 也 是 正确 的 ， 但 是 =(i-1)WN 就 不 对 了 ， 
因为 泊 是 0 时 , (i-D%N 可 以 是 -1 或 N-1。 程序 员 在 (-1)%N 返 回 N-1 的 机 器 上 使 用 (i-1)%N 时 ， 
会 得 到 正确 的 结果 , 但 是 将 代码 放 到 一 个 (-1)%N 返 回 -1 的 机 器 上 运行 时 ， 得 到 的 结果 可 能 
会 让 他 们 感到 非常 吃惊 。 使 用 库 函数 div(x,y) 也 起 不 到 任何 帮助 作用 ， 它 返回 一 个 结构 ， 结 
构 的 quot 和 rem 字 段 保 存 了 x/y 的 商 和 余数 。 当 i 是 0 时 ，div(i-1,N).rem 总 是 -1。 还 可 以 使 用 
i=(i-1+N)%N， 但 是 它 只 有 在 i-1+N 不 会 溢出 时 才能 使 用 。 


Hod 


2.2 实现 


一 个 实现 导出 一 个 接口 。 它 定义 了 必要 的 变量 和 函数 以 提供 接口 所 规定 的 功能 。 一 个 实 
现 揭示 了 表示 的 细节 和 接口 给 出 的 特定 行为 的 算法 ， 但 是 理想 的 情况 是 ， 客 户 调 用 程序 根本 
不 需要 看 见 这 些 细节 。 客 户 调用 程序 通常 是 通过 从 程序 库 中 调用 它们 来 完成 所 有 目标 代码 的 
实现 。 

一 个 接口 可 能 有 多 个 实现 
用 程序 产生 影响 。 不 同 的 实现 
的 依赖 性 ， 但 是 也 可 能 使 得 实 
的 或 部 分 不 同 的 实现 。 

在 C 语 言 中 ， 一 个 实现 是 出 一 个 或 多 个 .c 文 件 提供 的 。 一 个 实现 必须 提供 其 导出 的 接口 
所 指定 的 功能 。 实 现 应 包含 接口 的 .h 文 件 ， 以 保证 它 的 定义 与 接口 的 声明 是 一 致 的 。 然 而 ， 
除 此 之 外 ，C 中 没有 提供 甚 他 语言 机 制 检查 实现 的 一 致 性 。 


和 接口 一 样 ， 本 书 中 描述 的 实现 也 有 如 arith.c 所 示 的 固定 格式 ; 
(arith.cys 

#include "arith.h" 

(arith.c functions 19) 


， 但 只 要 实现 符合 该 接口 ， 那 么 它 就 可 以 改变 而 不 会 对 客户 调 
可 以 提供 更 好 的 人 性能， 合 如 ， 设 计 良 好 的 接口 可 以 避免 对 机 器 
现 必须 依赖 于 机 器 ， 因 此 对 使 用 接口 的 不 同 机 器 可 能 需要 不 同 


(arith.c functions 19)= 
int Arith max(int x, int y) { 
return x >y? x: y; 


} 


int Arith min(int x, int yp tií- 
return x >y ?y : x; 
} 
BR f «arith.c functions 79> 外 ， 涉 太 其 他 实现 的 代码 块 可 能 命名 为 <data> , «types» 、 
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«macros», 、<prototypes> 等 等 。 如 果 不 会 产生 混淆 ， 代 码 块 中 的 文件 名 (arith. ) 可 以 
略 去 。 
当 Arith_div 的 参数 的 符号 不 同时 ， 它 执行 除法 有 两 种 可 能 。 如 果 按 趋 近 0 取 整 ， 且 y 不 能 
整除 x ， 那 么 Arith_div(x,y) 等 于 x/y-1; 否则 ，x/y 执 行 以 下 语句 : 
(arith.c functions 19)+= 
int Arith div(int x, int y) (1 
if ((division truncates toward 0 20) 
&& (x and y have different signs 20) && x%y != 0) 
return x/y - 1; 
else 
return x/y; 


[19 | } 
在 前 面 一 节 的 例子 中 ， 用 -13 除 以 5， 测 试 了 除法 取 整 的 方式 B SERIO Sy REA NTO, 
并 比较 测试 的 结果 ， 就 能 核对 符号 : 


(division truncates toward 0 20)= 
-13/5 == -2 


(x and y have different signs 20)= 
(x < 0) != (y < 0) 


Arith_mod 可 以 按 它 所 定义 的 那样 实现 ; 


int Arith mod(int x, int y) 1 
return x - y*Arith div(x, y); 
} 


Arith_mod 也 可 以 使 用 “%” 操 作 符 对 Arith_diy 中 同样 的 条 件 进行 测试 。 当 那些 条 件 都 
成 立 时 kd 


Arith_mod(x,y) x - y*Arith div(x, y) 
x - y*(x/y - 1) 


x - y*(x/y) + y 


带 下 划 线 的 子 表达 式 就 是 标准 C 所 定义 的 x%y ， 因 此 Arith_mod 就 是 
(arith.c functions 19)+= 
int Arith mod(int x, int y) £1 

if ((division truncates toward 0 20) 

&& (x and y have different signs 20) && x%y != 0) 
return x%y + y; 

else 
return x%y; 


"og d 


} 
只 要 x 不 被 y 整 除 ， 那 么 Arith_floor 就 是 Arith_div ， 而 Arith_ceiling 就 是 Arith_div+1: 


(arith.c functions 19)+= 
| 20 | : : . . 
int Arith mod(int x, int y) { 
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return Arith div(x, y); 


int Arith ceiling(int x, int y) { 
return Arith div(x, y) + (x%y != 0); 
H 


2.9 ”抽象 数据 类 型 


抽象 数据 类 型 (abstract data type，ADT ) 是 一 个 定义 了 数据 类 型 以 及 基于 该 类 型 值 提 
供 的 各 种 操作 的 接口 。 一 个 数据 类 型 就 是 -- 组 值 。 在 C 语 言 中 , 内 艇 的 数据 类 型 包括 字符 、 
整数 、 浮 点 数 等 等 。 结 构 本 身 就 定义 了 一 种 新 的 类 型 并 且 可 以 用 来 形成 更 高 级 的 类 型 ， 例 如 
表 、 树 、 查 找 表 等 等 。 

一 个 高 级 类 型 是 抽象 的 ， 因 为 接口 隐藏 了 它 的 表示 细节 ， 只 说 明了 针对 该 类 型 值 的 合法 
操作 。 理 想 情况 下 ， 这 些 操 作 并 不 揭示 表示 细节 ， 以 免 客户 调用 程序 依赖 这 些 细节 。 一 个 抽 
象 数据 类 型 (或 ADT ) 的 规范 化 例子 是 堆栈 。 它 的 接口 定义 了 该 类 型 及 甚 五 种 操作 ， 


(initial version of stack. h)= 
#ifndef STACK_INCLUDED 
#define STACK_INCLUDED 


typedef struct Stack_T *Stack_T; 


extern Stack T Stack new (void): 

extern int Stack empty(Stack T stk); 

extern void Stack push (Stack T stk, void *x); 
extern void *Stack_pop (Stack T stk); 

extern void Stack free (Stack T *stk); 


#endif 
typedef X [Stack TRA, ， 该 类 型 是 一 个 指向 有 相同 名 字 标 签 的 结构 。 这 个 定义 是 合法 的 ， 
因为 结构 、 共 用 体 和 枚 举 标签 使 用 一 个 名 字 空 间 ， 该 各 字 空间 是 从 变量 、 函 数 和 类 型 名 空间 
中 分 隔 出 来 的 ， 这 种 用 法 将 贯穿 本 书 。 类 型 名 Stack_T 是 该 接口 所 关心 的 名 字 ， 这 个 标签 名 
也 许 只 对 实现 来 说 才 是 重要 的 。 使 用 相同 的 名 字 可 以 避免 代码 中 出 现 过 多 的 变量 名 ， 而 这 些 
变量 名 确实 用 得 很 少 。 

宏 STACK_INCLUDED 也 破坏 了 名 字 空 间 定 义 惯例 ， 但 是 INCLUDED 后 级 有 助 于 避免 
冲突 。 另 一 个 常用 的 约定 就 是 在 这 类 名 字 之 前 加 下 划 线 作为 前 缀 ， 例如 _STACK 或 
-STACK_INCLUDED 。 然 而 ， 标准 C 保 留 了 前 下 划 线 以 便于 实现 和 将 来 的 扩展 ， 因 此 使 用 
前 下 划 线 一 定 要 谨慎 。 

这 个 接口 说 明 ， 堆 栈 是 用 指向 结构 的 指针 来 表示 的 ， 但 是 它 并 没有 给 出 那些 结构 的 内 容 。 
Stack_T 是 一 个 隐 式 的 指针 类 型 ， 客 户 调用 程序 可 以 自由 地 操作 这 样 的 指针 ， 但 是 不 能 间接 
引用 它们 ， 也 就 是 说 ， 客 户 调用 程序 不 能 查看 由 该 类 型 指针 指向 的 结构 的 内 部 内 容 ， 只 有 实 





^ 
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现 具有 这 个 特权 。 

隐 式 指针 隐藏 了 表示 的 细节 而 且 有 利于 捕获 错误 。 只 有 Stack_T 能 被 传递 给 上 面 的 函 
数 ; 试图 传递 其 他 类 型 的 指针 ， 倒 如 指向 其 他 结构 的 指针 ， 都 会 产生 编译 错误 。 惟 一 的 例外 
情况 是 空 指 针 ， 它 可 以 传 给 任何 类 型 的 指针 。 

条 件 编译 指令 朋 fdef 和 #endif， 以 及 STACK_INCLUDED 的 #define ， 使 得 stack.h 可 以 被 
包含 多 次 ， 这 种 情况 会 在 接口 导入 其 他 接口 时 出 现 。 如 果 没 有 这 种 保护 ， 第 二 次 和 接 下 来 的 
包含 都 将 引起 类 型 定义 中 Stack_T 重 复 定义 的 编译 错误 。 

在 少数 几 个 可 供 选 择 的 约定 中 ， 这 种 约定 可 能 是 最 好 的 。 禁 止 接口 包含 其 他 的 接口 可 以 
完全 避免 重复 包含 的 情况 ， 但 是 这 就 要 求 接口 必须 采用 别 的 方法 将 其 他 接口 导 人 ， 例 如 在 注 
释 中 导 人 ， 并 强迫 程序 员 提 供 包 含 。 将 条 件 编译 指令 放 在 客户 调用 程序 中 而 不 是 接口 中 ， 这 
样 可 以 避免 不 必要 的 接口 访问 ， 但 这 样 做 会 使 得 这 些 指令 出 现在 多 处 ， 而 不 像 以 前 ， 只 出 现 
UR ET" EUR STE OR AE IP MUERE T f. 

按照 这 种 约定 ,给 出 了 抽象 数据 类 型 定义 的 接口 X 将 被 命名 为 X_T。 本 书 中 的 接口 更 进 
一 步 加 强 这 个 约定 ， 使 用 突 将 X_T 在 接口 内 简写 为 T。 使 用 这 个 约定 stackh 就 变 成 ， 

(stack. h)= 


#ifndef STACK_INCLUDED 
#define STACK_INCLUDED 








#define T Stack_T 
typedef struct T *T; 


extern T Stack_new (void); 

extern int Stack_empty(T stk); 

extern void Stack push (T stk, void *x); 
extern void *Stack pop (T stk): 

extern void Stack free (T *stk); 


#undef T 

#endif 
语义 上 这 个 接口 同 前 一 个 接口 是 等 价 的 。 简 写 仅仅 使 得 接口 更 容易 阅读 ;T 指 的 是 接口 的 一 
个 基本 类 型 。 然 而 客户 调用 程序 必须 使 用 Stack_T， Al 为 stack.h 末 尾 的 加 ndef 指 令 取 消 了 这 
个 简写 。 

这 个 接口 提供 了 一 个 任意 指针 的 无 边界 堆栈 。Stack_new 产 生 一 个 新 的 堆栈 ， 返回 一 个 T 
类 型 的 值 ， 该 值 可 以 传递 给 其 他 4 个 函数 。Stack_push 将 指针 入 栈 ， 而 Stack_pop 移 出 并 返回 
栈 项 的 指针 ， 栈 为 空 时 Stack_empty 返 回 1 ， 否则 返回 0。Stack_free 接 受 指向 T 的 一 个 指针 作 
为 参数 ， 释 放 该 指针 指向 的 堆栈 ， 并 将 类 型 T 的 变量 设 为 空 指针 。j 这 种 设计 可 以 避免 出 现 悬 

空 指针 ， 即 指向 已 释放 空间 的 指针 。 例 如 ， 如 果 names 定 义 和 初 始 化 如 下 


#include "stack.h" 
Stack T names = Stack newO; 
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语句 

Stack free(&names); 

就 释放 了 分 配给 names 的 堆栈 并 将 names 设 为 空 指针 。 

当 一 个 抽象 数据 类 型 用 隐 式 指针 表示 时 ， 输 出 的 类 型 也 是 一 个 指针 类 型 ， 这 就 是 为 什么 
Stack_T 要 定义 为 一 个 指向 结构 Stack_T 的 指针 的 原因 。 本 书 中 大 多 数 的 抽象 数据 类 型 都 使 用 
类 似 的 定义 。 如 果 一 个 抽象 数据 类 型 给 出 了 它 的 表示 ， 并 导出 了 通过 值 接收 和 返回 该 结构 的 
函数 ， 那 么 它 必 须 定义 该 接口 类 型 为 输出 的 类 型 。 第 16 章 中 的 接口 Text 说 明 了 这 个 约定 ， 该 
接口 声明 Text_T 是 struct Text_T 的 类 型 定义 。 总 之 ，T 是 接口 中 基本 类 型 的 缩写 。 


2.4 客户 调用 程序 的 责任 


接口 是 其 实现 与 客户 调用 程序 之 间 的 一 种 契约 。 实 现 必须 提供 接口 声明 的 功能 ， 而 客户 
调用 程序 必须 按照 接口 中 擅 述 的 那些 显 式 或 隐 式 的 规则 来 使 用 这 些 功能 。 程 序 设计 语言 提供 
了 一 些 隐 式 规 则 来 管理 接口 中 声明 的 类 型 、 函 数 以 及 变量 。 例 如 ，C 中 的 类 型 检查 规则 就 可 
以 捕捉 到 类 型 错误 以 及 接口 函数 的 参数 数目 方面 的 错误 。 

nn 规则 ， 就 必须 在 接口 中 予以 说 明 。 
客户 调用 程序 必须 遵守 这 些 规则 ， 现 也 必须 实现 这 些 规 则 。 接 口 通常 说 明 的 是 不 可 检查 
的 运行 期 错误 ( unchecked runtime error )、 可 检查 的 运 — 错误 (checked runtime error ) 以 
及 异常 (exception) 情况 。 不 可 检查 和 可 检查 的 运行 期 错误 不 是 客户 调用 程序 造成 的 ， 例 如 
打开 文件 错误 等 等 。 运 行 期 错误 也 是 客户 调用 程序 和 实现 之 间 契 约 的 一 部 分 ， 是 不 可 恢复 的 
程序 错误 。 异 常 是 一 些 可 能 发 生 但 很 少 会 发 生 的 情况 ， 程 序 可 以 从 异常 中 恢复 ， 我 们 将 在 第 
4 章 对 其 进行 详细 讲解 。 

不 可 检查 的 运行 期 错误 不 要 求实 现 能 够 检查 出 来 。 如 果 发 生 了 不 可 检查 的 运行 期 错误 ， 
程序 可 能 继续 执行 ， 但 是 结果 是 不 可 预测 的 ， 也 不 可 重复 。 好 的 接口 应 尽 可 能 地 避免 出 现 不 
可 检查 的 运行 期 错误 ， 同 时 必须 说 明 那 些 可 能 发 生 的 不 可 检查 运行 期 错误 。 例如 Arith 就 必 
须 说 明 被 0 除 是 个 不 可 检查 的 运行 期 错误 。Arith 可 以 检查 除数 是 否 为 0, 但 将 其 作为 一 个 不 
可 检查 的 运行 期 错误 ,这 样 可 以 让 它 的 函数 模拟 C 中 内 钥 的 除法 操作 行为 ， C 中 内 嵌 的 除法 
操作 就 没有 要 求 检查 除 0 的 情况 。 用 0 做 除数 的 另 一 个 合理 解决 方法 就 是 将 其 作为 可 检查 的 运 
行 期 错误 。 

可 检查 的 运行 期 错误 是 实现 保证 能 够 检查 出 来 的 。 这 些 错误 说 明 ， 客 户 调用 程序 没有 尊 
守 某 部 分 约定 ; 避免 这 些 错误 是 客户 调用 程序 的 责任 。Stack 接 口 就 指出 了 三 种 可 检查 的 运 
行 期 错误 : 

(1) 向 接口 中 的 例 程 传递 空 Stack_T; 

(2) 向 传 给 Stack_free 的 Stack_ 工 传递 一 个 空 指针 ; 

(3) 或 将 一 个 空 栈 传 给 Stack_pop 。 
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接口 也 可 以 指定 异常 以 及 引发 异常 的 条 件 。 正 如 第 4 章 中 解释 的 ， 客 户 调 用 程序 可 以 处 
理 蜡 常 并 采取 正确 的 动作 ， 未 处 理 的 异常 将 被 当 作 可 检查 的 运行 错误 。 接 口 通 常 列 出 由 它 及 
其 导入 的 接口 所 引发 的 异常 。 例 如 ，Stack 接 口 导 和 人 了 Mem 接 口 ， 使 用 它 来 分 配 空间 ， 因 此 ， 
它 声 明 Stack_new 和 Stack_push 会 引发 异常 Mem_Failed 。 本 书 中 大 多 数 接口 都 说 明了 类 似 的 


可 检查 运行 期 错误 和 异常 。 
有 了 这 些 Stack 接 口 的 附加 信息 ， 我 们 就 可 以 来 看 看 它 的 实现 了 : 
(stack.c)s 


#include «stddef.h» 
#include "assert.h" 
finclude "mem.h" 
#include "stack.h" 


#define T Stack T 

(types 25) 

(functions 26) 
#define 指 令 重 新 将 T 实 例 化 作为 Stack_T 的 简写 。 实 现 揭示 了 Stack_T 的 内 容 ， 其 内 部 是 个 结 
T], 该 结构 有 个 字段 指向 一 个 栈 内 指针 的 链表 以 及 一 个 这 些 指针 的 计数 。 


(types 25)= 
struct T ( 
int count; 
struct elem { 
void *x; 
struct elem *link; 
} *head; 
E 


Stack_new 分 配 并 初始 化 … 个 新 的 T: 


(functions 26)= 
T Stack new(void) { 
T stk; 


NEW(stk) ; 
stk->count = 0; 
stk->head = NULL; 
return Stk; 


} 
NEW 是 Mem 接 口中 的 一 个 分 配 宏 指 令 。NEW (p) 将 分 配 该 结构 的 一 个 实例 ， 并 将 其 指针 
Wap, ， 央 此 ， 在 Stack_new 中 使 用 它 就 可 以 分 配 一 个 新 的 Stack_T 结 构 。 
当 count 为 0 时 Stack_empty 返 回 1 ， 否 则 返回 0: 


(functions 26)+= 
int Stack empty(T stk) ( 
assert(stk); 
return stk->count == 0; 
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assert(stk) XAT By he A) 3 £139] RR, BRL SE HE fe Stack P BOTE fA PRK. assert(e) fe 

一 个 断言 ， 它 确保 表达 式 e 不 为 0。 如 果 e 不 为 0,， 那么 它 什么 也 不 做 ， 否 则 将 停止 程序 的 运行 。 

assert 是 标准 库 函 数 的 一 部 分 ， 但 是 第 4 章 中 的 Assert 接 口 定义 了 它 自 己 的 具有 类 似 语义 的 

assert 函 数 ， 并 提供 了 平稳 的 程序 终止 。assert 用 来 检查 所 有 的 可 检查 运行 期 错误 。 
Stack_push 和 Stack_pop 从 stk->head 所 指向 的 链表 的 头 部 添加 或 移出 元 素 ， 





(functions 26)+= 
void Stack push(T stk, void *x) { 
struct elem *t; 


assert(stk); 

NEWCt) ; 

t->x = Xj 

t->link = stk->head; 
stk->head = t; 
stk->count++; 


} 


void *Stack_pop(T stk) { 
void *x; 
struct elem *t; 


assert(stk) ; 
assert(stk->count > 0); 
t = stk->head; 
stk->head = t->link; 
stk->count--; 

X = t-»-X; 

FREE(t) ; 

return x; 


} 
FREE 是 Mem 的 释放 宏 指 令 ; 它 释 放 指 针 参 数 所 指向 的 空间 ， 然 后 将 参数 设 为 空 指针 ,这 同 
Stack_free 所 考虑 的 一 样 一 一 避免 出 现 悬 空 指针 。Stack_free 也 调用 FREE . 

(functions 26)+= 


void Stack free(T *stk) { 
struct elem *t, *u; 


assert(stk && *stk); 
for (t = (*stk)->head; t; t =u) { 
u = t-»link; 
FREE(t) ; 
H 
FREEC*stk); 
} 


此 实现 展示 了 本 书 中 所 有 的 ADT 接 口 都 会 遇 到 的 一 个 不 可 检查 运行 期 错误 ， 故 未 给 出 说 
明 。 我 们 没有 方法 保证 传 给 Stack_push Stack_pop, Stack empty 的 Stack_T 和 传 给 
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Stack_free 的 Stack_T+ 是 由 Stack_new 返 回 的 有 效 的 Stack_ T。 练 习 2.3 探 讨 了 针对 这 个 问题 的 
部 分 解决 办 法 。 

还 有 两 个 不 可 检查 的 运行 期 错误 ， 它 们 的 影响 可 能 更 细微 。 本 书 中 的 许多 ADT 都 会 遇 到 
空 指针 ; 也 就 是 说 ， 它 们 存储 并 返回 空 指针 。 在 任何 ADT 中 存储 一 个 函数 指针 ， 即 指向 一 个 
函数 的 指针 ， 就 是 一 个 不 可 检查 的 运行 期 错误 。 空 指针 是 一 个 普通 的 指针 ， 一 个 void* 类 型 的 
变量 可 以 存储 指向 任意 对 象 的 指针 ， 包 括 预 定义 类 型 、 结 构 以 及 指针 。 函 数 指针 则 不 同 , 虽 
然 许多 C 编译 器 允许 将 函数 指针 赋值 为 一 个 空 指 针 ， 但 是 并 不 保证 空 指针 可 以 存储 函数 指针 。 

任何 对 象 指针 可 以 通过 空 指针 进行 传播 ， 且 不 丢失 任何 信息 。 例 如 ， 执 行 下 列 语句 之 后 ; 

S *p, *q; 

void *t; 

: 

q 
Xt FE Aa] AF ea RWS, ，p 和 q 是 相等 的 。 但 是 ， 空 指针 的 使 用 不 能 破坏 类 型 系统 。 例如 ， 在 执 
行 下 列 语句 之 后 : 

S *p; 


D *q; 
void *t; 


p; 
t; 





: 

q 
9 不 一 定 等 于 p。 由 于 类 型 S 和 D 的 边界 调整 限制 ， qd 可 能 是 一 个 指向 类 型 D 的 某 个 对 象 的 空 指 
针 。 在 标准 C 中 ， 空 指针 和 字符 指针 有 相同 的 大 小 和 表示 ， 但 是 其 他 的 指针 可 能 会 小 一 些 或 
有 不 同 的 表示 。 因 此 ， 在 ADT 中 存储 一 个 指向 S 的 指针 ， 但 是 将 它 取 出 赋 给 类 型 D 的 变量 ， 
而 S 和 D 又 是 不 同 的 对 象 类 型 ， 这 就 会 导致 一 个 不 可 检查 的 运行 期 错误 。 

当 ADT 函 数 不 会 修改 指针 所 指 对 象 时 ， 声 明 一 个 常量 型 隐 式 指针 参数 是 很 有 可 能 的 。 例 
如 ，Stack_empty 可 以 写成 以 下 的 形式 ， 


p; 
t; 


int Stack_empty(const T stk) { 
assert(stk); 
return stk->count == 0; 


} 
但 这 样 使 用 const ( 常量 定义 ) 是 不 正确 的 。 此 处 的 目的 是 把 stk 声 明成 一 个 “指向 不 可 改变 
的 struct T 的 指针 ”， 因 为 Stack_empty 并 不 修改 *stk , fH const T stk Pi 明 stk 为 一 个 “指向 
struct 工 的 常量 指针 "”， 也 就 是 说 T 的 类 型 定义 将 struct T* 包 装 成 一 个 单一 类 型 ， 而 该 整个 类 
型 的 操作 数 是 一 个 常数 。const T stk 对 Stack_empty 和 它 的 调用 者 来 说 是 没有 用 的 ， 因 为 所 有 
的 标量 (包括 指针 ) 在 C 中 都 是 通过 值 传递 的 。 Stack_empty 不 可 能 改变 调用 者 实 参 的 值 ， 不 
管 参数 是 带 还 是 不 带 const 限 制 符 。 
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id HEAT (CST, PA R e Xx fe] d 


int Stack empty(const struct T *stk) { 
assert(stk); 
return stk-»count == 0: 


} 
这 种 使 用 方法 说 明了 为 什么 const 不 应 该 用 在 指向 ADT 的 指针 中 ; 它 暴 露 了 部 分 实现 ,进而 限 
制 了 采用 其 他 可 行 方法 的 可 能 性 。 对 Stack 的 这 个 实现 来 说 ， 使 用 const 不 会 有 什么 问题 ,但 是 
这 样 做 排除 了 其 他 可 行 的 方法 。 假 设 为 了 重复 使 用 栈 元 素 ， 需 要 推迟 释放 栈 元 素 ， 在 调用 
Stack_empty 时 才 释 放 它 们 。 这 个 Stack_empty 的 实现 就 需要 修改 *stk ,但 是 它 不 能 进行 修改 ， 
因为 st 化 被 声明 为 const。 本 书 中 ADT 均 不 使 用 const。 


2.5 效率 


本 书 中 大 部 分 接口 的 实现 所 使 用 的 算法 和 数据 结构 ， 其 平均 运行 时 间 都 与 Y 成 线性 关系 
或 更 低 ( 其 中 N 是 接口 输入 的 大 小 )， 而 且 大 部 分 都 可 以 处 理 大 型 的 输入 。 对 不 能 处 理 大 型 
输入 的 接口 或 者 那些 将 性 能 作为 一 个 很 重要 的 考虑 因素 的 接口 都 指定 了 一 个 性 能 标准 
(performance criteria )。 实 现 必须 达到 这 些 标 准 ， 而 客户 调用 程序 可 以 期 望 其 性 能 与 指定 的 
标准 一 样 好 ,但 不 要 指望 更 好 的 性 能 。 

本 书 中 的 所 有 接口 采用 的 是 简单 的 但 有 效 的 算法 。 当 N 很 大 时 更 复杂 的 算法 和 数据 结构 
可 能 会 有 更 好 的 性 能 ， 但 是 N 通 常 都 很 小 。 因 此 大 多 数 实现 都 使 用 了 基本 的 数据 结构 像 数 组 、 
链表 、 散 列表 、 树 以 及 这 些 结构 的 组 合 。 

本 书 中 除了 少数 几 个 ADT， 其 他 的 类 型 定义 都 使 用 了 隐 式 指针 ， 因 此 像 Stack_empty 这 
样 的 函数 都 可 以 用 于 访问 被 实现 隐藏 了 的 字段 。 出 于 是 调用 函数 而 不 是 直接 访问 字段 ， 所 以 
对 实际 应 用 性 能 的 影响 通常 是 可 以 忽略 不 计 的 。 针 对 可 靠 性 及 尽 可 能 地 找到 运行 期 错误 方面 
的 改进 措施 都 是 值得 考虑 的 ， 其 价值 远 超过 在 性 能 上 的 改进 所 能 带 来 的 微小 价值 。 

如 果 客 观 的 度量 表明 性 能 的 改进 确实 是 必要 的 ， 那 么 它们 就 应 该 在 不 改变 接口 的 前 提 下 
进行 改进 ， 例 如 通过 定义 宏 指令 。 当 这 种 方法 不 可 行 时 ， 最 好 创建 一 个 新 的 接口 ， 并 说 明 它 
的 性 能 比 修改 一 个 已 存在 的 楼 口 更 有 效 ， 修 改 一 个 已 存在 的 接口 会 使 得 所 有 调用 它 的 客户 调 
用 程序 都 变 成 无 效 的 客户 调用 程序 。 











参考 书目 浅 析 

过 程 和 函数 库 的 重要 性 从 1950 年 代 就 被 认识 到 了 o Parnas (1972) 就 是 一 篇 关于 如 何 将 
一 个 程序 划分 成 多 个 模块 的 经 典 文章 。 这 篇 论文 已 有 20 多 年 了 ， 然 而 它 却 陈述 了 程序 员 今天 
还 要 面 对 的 问题 。 

C 程 序 员 每 天 都 在 使 用 接口 : C 语 言 库 就 是 一 个 拥有 15 个 接口 的 集合 。 标准 MO 接口 一 -stdioh ， 





定义 了 一 个 ADT 一 -FILE 以 及 对 FILE 指 针 的 各 项 操作 。Plauger (1992) 给 出 了 这 15 个 接口 
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以 及 其 匹配 的 实现 的 详细 说 明 ， 和 本 书 中 介绍 的 一 系列 接口 和 实现 所 用 的 方法 很 相似 。 
Modula-3 是 一 门 相对 比较 新 的 程序 设计 语言 ， 它 在 语言 上 支持 接口 和 实现 的 分 离 ， 并 且 
它 是 本 书 中 使 用 的 基于 接口 技术 的 起 源 ( Nelson 1991 )。 不 可 检查 和 可 检查 的 运行 期 错误 的 概 
念 以 及 ADT 中 T 的 概念 都 来 自 Modula-3。Harbison (1992 ) 是 一 本 介绍 Modula-3 的 教科 书 。 
Horning et al. (1993 ) 描述 了 Modula-3 系 统 中 的 核心 接口 。 本 书 中 的 部 分 接口 就 是 根据 那些 接 
口 改写 的 。Roberts (1995 ) 的 书 将 基于 接口 的 设计 作为 计算 机 课程 介绍 性 教学 的 组 织 原 则 。 
断言 的 重要 性 也 是 被 广泛 承认 的 ,一些 程序 设计 语言 ， 像 Modula-3 和 Eiffel (Meyer 
1992 ) 都 在 语言 中 嵌 人 了 断言 机 制 。Maguire (1993 ) 用 了 一 整 章 的 篇 幅 来 介绍 C 语 言 程序 
设计 中 断言 的 使 用 。 i 
很 多 熟悉 面向 对 象 程序 设计 的 程序 员 可 能 会 认为 :本 书 中 的 大 多 数 ADT 都 可 以 (也 许 会 
更 好 ) 作为 面向 对 象 程序 设计 语言 中 的 对 象 来 提出 ， 像 C++ (Ellis 和 Stroustrup 1990) 和 
Modula-3, Budd (1991) 是 一 本 关于 面向 对 象 程序 设计 方法 以 及 一 些 面向 对 象 程序 设计 语 
言 ( 包括 C++ ) 的 介绍 指南 。 本 书 中 说 明 的 接口 设计 原则 对 面向 对 象 程序 设计 语言 同样 适用 。 
例如 ， 用 C++ 重 写本 书 中 的 ADT ， 对 从 C 转 换 到 C++ 的 程序 员 来 说 ， 就 是 一 个 很 有 用 的 练习 。 
C++ 标准 模板 库 (STL ) 提供 了 类 似 于 本 书 中 所 描写 的 ADT 。STL 充 分 利用 了 C++ 模板 ， 
用 有 具体 的 类 型 将 ADT 实 例 化 (Musser 和 Saini 1996 )。 例 如 ，STL 提 供 了 一 个 向 量 (vector ) 
数据 类 型 的 模板 ， 它 可 以 用 于 实例 化 整数 向 量 、 字 符 串 向 量 等 等 。STL 同 时 也 提供 了 一 套 函 
数 ， 用 于 操作 由 模板 产生 的 数据 类 型 。 








练习 


2. 预 处 理 宏 指令 和 条 件 编译 指令 ， 像 多 让， 可 以 用 于 指定 Arith_div 和 Arith_mod 中 除法 
是 如 何 取 整 的 。 解 释 为 什么 -13/5 == -2 是 执行 测试 的 个 较 好 的 方法 。 

2.2 fEArith, divllArith mod 中 使 用 的 测试 -13/5 == -2 只 有 在 arith.c 的 编译 器 采用 和 调 
用 Arith_div 和 Arith_mod 时 一 样 的 工作 方式 进行 算术 运算 时 才 有 效 。 但 是 这 个 条 件 
可 能 并 不 成 立 ， 例 如 用 运行 在 机 器 X 上 的 交叉 编译 器 来 编译 arith,c ， 并 生成 机 器 Y 
的 代码 。 不 使 用 条 件 编 译 指令 修改 arith.c， 以 使 得 上 述 用 交叉 编译 生成 的 代码 也 能 


正常 工作 。 
2.3 与 本 书 中 所 有 的 ADT 一 样 ，Stack 接 口 省 略 了 这 样 的 说 明 “ 传 递 一 个 外 部 Stack_T 到 
接口 中 的 任何 


例 程 是 一 个 不 可 检查 的 运行 期 错误 ”。 一 个 外 部 Stack_T 是 指 它 不 是 由 Stack_new 产 
生 的 。 试 修改 stack.c 使 得 它 可 以 检查 这 种 错误 的 发 生 。 例 如 ， 一 种 方法 就 是 在 
Stack_T 的 结构 中 增加 一 个 字段 ， 保 存 一 个 由 Stack_new 返 回 的 对 每 个 Stack_T 是 惟 
一 的 位 模式 。 

24 通常 ， 检 查 某 种 无 效 指针 是 可 能 的 。 例 如 ， 如 果 一 个 非 空 指针 指向 一 个 客户 调用 程 
序 地 址 空间 以 外 的 地 址 ,那么 它 就 是 无 效 的 ， 而 且 指针 通常 要 满足 边界 对 齐 限制 ; 
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例如 ， 在 某 些 系 统 上 一 个 指向 双 精 度数 的 指针 必须 是 8 的 倍数 。 设 计 一 个 系统 专用 
的 宏 指令 isBadPtr(p)， 使 得 当 p 是 个 无 效 指针 时 ，assert(p17) 语 句 可 以 被 类 似 
assert(lisBadPtr(ptr)) 这 样 的 断言 来 取代 。 

对 堆栈 有 许多 可 行 的 接口 ， 设 计 并 实现 几 个 其 他 可 行 的 Stack 接 口 。 例 如 ， 一 种 方 
法 是 指定 -- 个 最 大 的 尺寸 作为 Stack_new 的 参数 。 
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原子 是 一 个 指向 惟一 的 、 不 可 改变 的 0 个 或 任意 多 个 字 节 序列 的 指针 。 大 多 数 原 子 都 是 
指向 以 空 字 符 结 束 的 字符 串 ， 但 是 任何 一 个 指向 任意 字 节 序列 的 指针 都 可 以 是 原子 。 任 何 原 
子 都 只 能 出 现 一 次 ， 这 就 是 为 什么 它 被 称 作 原子 的 原因 。 如 果 两 个 原子 指向 同一 个 内 存单 元 
时 ， 则 这 两 个 原子 是 相等 的 。 仅 仅 比 较 两 个 字 节 序列 相应 的 指针 是 否 相 等 ， 就 可 以 判断 这 两 
个 字 节 序列 是 否 相 等 了 ,这 是 使 用 原子 的 好 处 之 一 。 另 一 个 好 处 就 是 使 用 原子 可 以 节省 空间 ， 
因为 每 个 序列 只 会 出 现 一 六 。 

原子 通常 被 当 作 数据 结构 中 的 关键 字 使 用 ， 这 些 数据 结构 是 用 任意 字 节 序列 ， 而 不 是 用 
整数 来 索引 的 。 第 8 和 第 9 章 中 叙述 的 表 和 集合 就 是 这 方面 的 例子 。 


3.1 接口 


Atom 接 口 很 简单 ， 


(atom. hys 
#ifndef ATOM, INCLUDED 
#define ATOM INCLUDED 


extern int Atom length(const char *str); 

extern const char *Atom new (const char *str, int len); 
extern const char *Atom string(const char *str); 

extern const char *Atom int Clong n); 


#endif 


Atom new f li— 48 FIT BE PIR TTA Bea EA 的 字 节 数 作 为 输入 。 它 在 原子 表 中 增加 
一 个 该 序列 的 拷贝 ， 并 且 如 果 需 要 的 话 ， 返 回 原子 表 中 指向 该 拷贝 的 指针 ( 即 原子 )。 
Atom_new 永 远 不 会 返回 一 个 空 指针 。 一 号 原子 创建 好 了 ， 那 么 它 在 客户 调用 程序 的 整个 执 
行 期 间 都 存在 。 原 子 总 是 以 一 个 空 字符 结束 ， 在 必要 的 时 候 该 空 字符 由 Atom_new 添 加 。 

Atom_string 与 Atom_new 类 似 ， 也 是 字符 中 原子 的 常规 使 用 方法 。 它 接收 一 个 以 空 字符 
结束 的 字符 串 作为 输入 ， 在 原子 表 中 增加 一 个 该 串 的 拷贝 ， 如 果 需 要 的 话 ， 返回 该 原子 。 
Atom_int 返 回 长 整数 n 的 字符 串 表 示 的 原子 ， 这 也 是 原子 的 另 一 种 常规 使 用 方法 。 最 后 ， 
Atom_length 返 回 其 原子 参数 的 长 度 。 

将 一 个 空 指 儿 传 递 给 该 接口 中 的 任何 一 个 函数 、 传 递 一 个 负 的 len 值 给 Atom_new, 或 传 
递 一 个 不 是 原子 的 指针 给 Atom_length， 这 些 都 是 可 检查 的 运行 期 错误 ; 而 试图 修改 原子 所 
指向 字 节 的 内 容 ， 则 是 不 可 检查 的 运行 期 错误 。Atom -length 执 行 所 花费 的 时 间 与 原子 的 数 
目 成 比例 。Atom_new 、 Atom_string 以 及 Atom_int 都 可 能 会 引发 Mem_Failed 异 常 。 
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3.2 实现 


Atom 的 实现 对 原子 表 进 行 维护 。Atom_new Atom string 以 及 Atom_int 查 找 原 子 表 ， 并 
且 都 有 可 能 在 原子 表 中 添加 一 个 新 的 元 素 ， 而 Atom_length 仅仅 查 找 原 子 表 。 


(atom.cjs 
(includes 34) 
(macros 37) 
(data 36) 
(functions 35) 


(includes 34)= 
#include "atom.h" 


Atom string 和 Atom_int 可 以 在 不 知道 原子 表 的 表示 细节 的 情况 下 执行 相应 操作 。 例 如 
Atom_string 就 仅仅 调用 Atom_new: 


(functions 35)= 
const char *Atom_string(const char *str) 1 
assert(str); 
return Atom new(str, strlen(str)); 


} 


(includes 34)+= 
#include <string.h> 
finclude "assert.h" 


Atom int ý EEE WER $ed R—T SA, FAS WHjAtom new: 


(functions 35)+= 
const char *Atom int(long n) { 
char str[43]; 
char *s = str + sizeof str; 
unsigned long m; 


if (n == LONG MIN) 

m = LONG MAX + 1UL; 
else if (n « 0) 

m= -n; 
else 


do 
*--s = m%10 + '0'; 
while ((m / 10) > 0); 
if (n < 0) 
*.-s = tet 
return Atom new(s, (str + sizeof str) - s); 


} 


(includes 34)+= 
#include <limits.h> 
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Atom_int 必 须 处 理 二 进 制 补 码 数 的 不 对 称 范围 以 及 C 的 除法 和 取 余 运算 的 不 确定 性 。 无 
符号 的 除法 和 取 余 都 具有 和 良好 的 定义 ， 因 此 Atom_int 也 可 以 通过 使 用 无 符号 算术 来 避免 使 用 
有 符号 运算 引起 的 不 确定 性 。 

最 小 的 负 长 整数 的 绝对 值 不 可 能 被 表示 出 来 ， 内 为 在 二 进 制 补 码 系统 中 ,负数 比 正 数 多 
一 个 。 因 此 存 Atom_new 将 把 它 参 数 的 绝对 值 赋值 给 无 符号 长 整数 m 之 前 ， 它 必须 先 检测 这 
个 异常 情况 。LONG_MAX 的 值 存在 标准 头 文件 limits.h 中 。 

loop 循 环 从 左 到 右 形成 m 的 十 进 制 字符 申 表示 ; 它 计算 最 右边 的 数字 ， 用 10 去 除 m， 并 
且 一 直 继 续 至 做 到 m 值 痰 为 0。 计 算出 的 每 一 个 数字 ， 将 被 存 人 --s 中 ，s 在 str 中 是 向 后 移动 
的 。 如 果 n 是 负数 ， 那 么 会 在 字符 叫 的 开始 处 存 一 个 负 号 。 

转换 完成 以 后 ,8 指向 所 表示 的 字符 串 ， 这 个 字符 串 有 多 str[43] -s 个 字符 。str 有 43 个 字符 ， 
这 对 任何 机 器 上 的 任何 整数 的 十 进 制 表示 来 说 都 足够 了 。 例 如 ,我 们 假定 长 整数 的 长 度 是 
128 位 ， 对 任何 128 位 的 八进制 C 以 8 为 底数 ) 有 符号 整数 的 字符 串 表 示 需 要 128/3+1=43 个 字 
符 。 十 进 制 表示 的 数字 不 会 比 八进制 的 表示 需要 的 字符 数 多 ， 因 此 43 个 字符 足够 了 。 

st 定义 中 的 43 是 一 个 “魔术 数 ”( magic number )， 通 常 有 更 好 的 方式 来 定义 这 类 值 的 符 
号 名 ,以 确保 同样 的 值 能 够 在 各 处 使 用 。 然 而 ， 这 儿 的 值 仅 出 现 一 次 ,在 任何 需要 使 用 该 值 
的 地 方 将 使 用 sizeof 来 代替 。 定 义 一 个 符号 化 的 名 字 可 使 代码 更 易 阅读 ， 但 是 这 会 使 得 代码 
更 长 ， 使 名 字 空 间 变 得 混乱 。 在 本 书 中 ， 仅 在 其 个 值 出 现 一 次 以 上 或 者 该 值 是 接口 的 一 部 分 
时 才 定 义 符 号 化 的 名 字 。 散 列表 的 长 度 buckets 小 于 2048 ， 就 是 遵循 这 种 习惯 的 另 一 个 例子 。 

散 列表 显然 是 一 个 针对 原子 表 的 数据 结构 ， 散 列表 是 一 个 人 口 表 的 指针 数组 ， 其 中 的 每 
一 个 元 素 都 在 有 一 个 原子 : 

(data 36)= 

static struct atom { 
struct atom *link; 
int len; 


char *str; 
] *buckets [2048] ; 





buckets[i] 中 的 链表 存储 着 散 列 值 为 | 的 原子 。 入 口 的 link 指 向 表 中 的 下 一 个 人 口 、len 存 储 序 
列 的 长 度 、str 指 向 序列 本 身 。 例 如 ， 在 字 长 为 32、 字符 长 度 为 8 的 小 尾数 法 计算 机 上 ， 
Atom, string( "an atom”) 分 配 一 个 如 图 3-1 所 示 的 struct atom , 下 划 线 代表 一 个 空格 。 每 一 
个 人 口 都 有 足够 大 的 空间 存储 它 的 序列 ， 网 3-2 显 示 了 散 列 表 的 全 部 结构 。 

Atom_new 计 算出 str[0..len-1] (如 果 len 为 0 时 ， 是 一 个 空 序列 ) 给 定 序列 的 散 列 值 ， 并 
用 buckets 的 元 素 个 数 对 其 取 模 ， 搜 索 由 buckets 中 该 散 列 值 元 素 所 指向 的 链表 。 如 果 发 现 
str[0..len-1] 已 存在 于 表 中 ， 它 将 只 是 简单 地 返回 该 原子 ; 


(functions 35)+= 
const char *Atom new(const char *str, int len) { 
unsigned long h; 
int i; 
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struct atom *p; 


assert(str); 
assert(len >= 0); 
(h — hash str[0..len-1] 39) 
h & NELEMS(buckets)-1; 
for (p = buckets[h]; p; p = p-»link) 
if (len == p-»len) { 
for Gi = 0; i < len && p-»str[i] == str[i]; ) 
i++; 
if (i == lem 
return p-»str; 


(allocate a new entry 39) 
return p->str; 


} 


(macros 37)= 
#define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0]))) 


NELEMS 的 定义 说 明了 C 的 一 个 常用 习惯 : 数组 中 元 素 个 数 等 于 数组 的 大 小 除 以 每 个 元 
素 的 大 小 。sizeof 是 一 个 编译 阶段 的 操作 ， 故 该 计算 只 能 在 编译 时 已 经 知道 了 数组 的 大 小 时 
才 可 以 使 用 。 如 定义 中 所 演示 的 ， 在 宏 内 使 用 的 宏 参 数 都 用 斜体 高 亮 显示 。 

















图 3-1 针对 “an atom” 的 struct atom 的 小 尾数 法 布局 


如 果 str[0..len-J] 不 在 表 中 ，Atom_new 将 分 配 一 个 struct atom 和 足够 的 附加 空间 以 存储 
序列 ,将 其 添加 到 表 中 ， 并 将 str[0..len -1] 拷 贝 到 附加 空间 中 ， 添 加 新 的 人 口 到 buckets[h] 中 
链表 的 表 头 。 人 口 可 以 被 附加 到 链表 的 表 尾 ， 但 是 将 其 加 到 链表 的 表 头 更 简单 一 些 。 


(allocate a new entry 39)= 
p = ALLOC(sizeof (*p) + len + 1); 
p->len = Jen; 
p->str = (char *)(p + 1); 
if (len > 0) 
memcpy(p->str, str, len); 
p-»str[len] = '\0'; 
p->link = buckets[h]; 
buckets[h] = p; 


(includes 34)+= 
#include "mem.h" 





buckets 


























图 3-2 Hash 表 结构 


ALLOC 足 Mem 的 基本 分 配 函 数 ， 它 模拟 标准 库 中 的 函数 malloc， 其 参数 是 请 求 的 字 节 
数 。Atom_new 不 能 使 用 Mem 中 的 NEW 函 数 (在 Stack_push 中 说 明 过 )， 因 为 其 字 节 的 长 度 
依赖 于 len ， 而 NEW 仅 用 在 字 节 数 在 编译 时 就 已 知 的 情况 下 才 可 以 使 用 。 上 面 的 ALLOC 调 用 
为 atom 结 构 和 序列 分 配 空间 ,序列 被 立即 存 人 随后 的 字 节 中 。 

传 给 Atom_new 的 序列 的 散 列 操作 包括 计算 代表 序列 的 一 个 无 符号 数 。 理 论 上 ， 对 于 N 
个 序列 ， 这 些 散 列 值 应 该 均匀 分 布 在 0 到 NELEMS(buckets)-1 之 间 。 如 果 是 这 样 分 布 的 ， 那 
么 buckets 中 的 每 一 个 链表 都 有 N/NELEMS(buckets) 个 元 素 ， 且 搜索 一 个 序列 的 平均 时 间 将 
是 NM2 .NELEMS(buckets)。 如 果 N 小 于 2 .NELEMS(buckets)， 那 么 搜索 时 间接 近 常 数 。 

散 列 操作 是 一 个 值得 好 好 研究 的 课题 ， 现 在 也 已 经 有 许多 很 好 的 散 列 函 数 。Atom_new 
使 用 一 个 简单 的 查找 表 算法 : 


(he hash str[0..len-1] 39)= 
for (h= 0, i = 0; i < len; i++) 
h = (h««1) + scatter[(unsigned char)str[i]]; 
scatter 是 一 个 256 信 口 的 数组 ， 它 将 字 节 映射 为 随机 数 ， 这 些 随机 数 通 过 调用 标准 库 中 的 函 
数 rand 生 成 。 实 验 表明 ， 这 种 简单 的 方法 有 助 于 生成 分 布 更 加 均匀 的 散 列 值 。 将 str[i] 转 换 为 
无 符号 字符 能 够 避免 C 中 关于 “无 格式 (plain ”字符 的 不 确定 性 ;它们 既 可 以 是 有 符号 的 ， 
也 可 以 是 无 符号 的 。 如 果 没 有 这 种 转换 ， 在 使 用 有 符号 字符 的 机 器 上 , 值 超过 127 的 str[ 订 将 
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变 为 负数 。 


(data 36)+= 
static unsigned long scatter[] = { 
2078917053, 143302914, 1027100827, 1953210302, 755253631, 2002600785, 
1405390230, 45248011, 1099951567, 433832350, 2018585307, 438263339, 
813528929, 1703199216, 618906479, 573714703, 766270699, 275680090, 
1510320440, 1583583926, 1723401032, 1965443329, 1098183682, 1636505764, 
980071615, 1011597961, 643279273, 1315461275, 157584038, 1069844923, 
471560540, 89017443, 1213147837, 1498661368, 2042227746, 1968401469, 
1353778505, 1300134328, 2013649480, 306246424, 1733966678, 1884751139, 
744509763, 400011959, 1440466707, 1363416242, 973726663, 59253759, 
1639096332, 336563455, 1642837685, 1215013716, 154523136, 593537720, 
704035832, 1134594751, 1605135681, 1347315106, 302572379, 1762719719, 
269676381, 774132919, 1851737163, 1482824219, 125310639, 1746481261, 
1303742040, 1479089144, 899131941, 1169907872, 1785335569, 485614972, 
907175364, 382361684, 885626931, 200158423, 1745777927, 1859353594, 
259412182, 1237390611, 48433401, 1902249868, 304920680, 202956538, 
348303940, 1008956512, 1337551289, 1953439621, 208787970, 1640123668, 
1568675693, 478464352, 266772940, 1272929208, 1961288571, 392083579, 
871926821, 1117546963, 1871172724, 1771058762, 139971187, 1509024645, 
109190086, 1047146551, 1891386329, 994817018, 1247304975, 1489680608, 
706686964, 1506717157, 579587572, 755120366, 1261483377, 884508252, 
958076904, 1609787317, 1893464764, 148144545, 1415743291, 2102252735, 
1788268214, 836935336, 433233439, 2055041154, 2109864544, 247038362, 
299641085, 834307717, 1364585325, 23330161, 457882831, 1504556512, 
1532354806, 567072918, 404219416, 1276257488, 1561889936, 1651524391, 
618454448, 121093252, 1010757900, 1198042020, 876213618, 124757630, 
2082550272, 1834290522, 1734544947, 1828531389, 1982435068, 1002804590, 
1783300476, 1623219634, 1839739926, 69050267, 1530777140, 1802120822, 
316088629, 1830418225, 488944891, 1680673954, 1853748387, 946827723, 
1037746818, 1238619545, 1513900641, 1441966234, 367393385, 928306929, 
946006977, 985847834, 1049400181, 1956764878, 36406206, 1925613800, 
2081522508, 2118956479, 1612420674, 1668583807, 1800004220, 1447372094, 
323904750, 1435821048, 923108080, 216161028, 1504871315, 306401572, 
2018281851, 1820959944, 2136819798, 359743094, 1354150250, 1843084537, 
1306570817, 244413420, 934220434, 672987810, 1686379655, 1301613820, 
1601294739, 484902984, 139978006, 503211273, 294184214, 176384212, 
281341425, 228223074, 147857043, 1893762099, 1896806882, 1947861263, 
1193650546, 273227984, 1236198663, 2116758626, 489389012, 593586330, 
275676551, 360187215, 267062626, 265012701, 719930310, 1621212876, 
2108097238, 2026501127, 1865626297, 894834024, 552005290, 1404522304, 
48964196, 5816381, 1889425288, 188942202, 509027654, 36125855, 
365326415, 790369079, 264348929, 513183458, 536647531, 13672163, 
313561074, 1730298077, 286900147, 1549759737, 1699573055, 776289160, 
2143346068, 1975249606, 1136476375, 262925046, 92778659, 1856406685, 
1884137923, 53392249, 1735424165, 1602280572 


}; 
Atom_length 不 能 对 其 参数 进行 散 列 操作 ， 因 为 它 不 知道 参数 的 长 度 。 但 是 该 参数 肯 
是 原子 ， 因 此 Atom_length 仅 仅 对 buckets 中 链表 的 指针 进行 来 回 的 比较 就 可 以 了 。 如 果 它 
到 了 原子 ， 将 返回 原子 的 长 度 ; 
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(functions 35)+= 
int Atom length(const char *str) { 
struct atom *p; 
int i; 


assert(str); 
for (i = 0; i < NELEMS(buckets); i++) 
for (p = buckets[i]; p; p = p-»link) 
if (p->str == str) 
return p->len; 
assert(0); 
return 0; 


} 
asSsert(0) 实 现 了 可 检查 的 运行 期 错误 ，Atom_length 必 须 在 参数 为 原子 而 不 是 字符 串 指 针 时 调 
用 。assert(0) 也 用 于 标识 发 生 了 不 期 望 发 生 的 情况 ， 即 所 谓 的 “不 可 发 生 ” 的 情况 。 


参考 书目 浅 析 


原子 已 在 LISP 语 言 中 使 用 了 很 长 的 时 间 ，LISP 也 是 原子 这 个 名 字 的 发 源 地 ;原子 也 一直 
用 在 字符 处 理 (string-manipulation ) 语言 中 ， 比 如 SNOBOL4， 这 种 语言 实现 了 与 这 一 章 
(Griswold 1972 ) 中 描述 的 几乎 完全 相同 的 字符 串 。 C 编 译 器 lcc (Fraser 和 Hanson 1995 ) 
中 有 一 个 类 似 于 Atom 的 模块 ， 是 Atom 的 实现 的 早期 产品 。lce 为 出 现在 源 程序 中 的 所 有 标识 
符 和 常量 在 一 个 单一 表 中 存储 一 个 字符 申 ， 并 且 从 不 释放 它们 。 这 样 做 不 会 消耗 太 大 的 存储 
空间 ， 因 为 在 C 程 序 中 ,无 论 源 程序 有 和 多大， 不 同 字符 串 的 数量 部 是 相当 少 的。 

Sedgewick (1990 ) füKnuth ( 1973b ) 详细 描述 了 散 列 ， 并 为 如 何 编写 一 个 好 的 散 列 函 
数 给 了 些 指 导 。Atom( 和 lcc ) 中 使 用 的 散 列 函数 是 就 是 由 Hans Boehm 提 出 的 。 


练习 


3.1 大 多 数 文章 建议 对 buckets 的 大 小 使 用 一 个 素数 。 使 用 素数 和 一 个 好 的 散 列 函数 ， 
通常 能 够 得 到 buckets 中 链表 的 长 度 的 一 个 很 好 的 分 布 。Atom 使 用 了 2 WIFE, CRP 
做 法 有 时 被 当 作 不 好 的 例子 加 以 引用 。 编写 一 个 生成 或 读 取 比 如 说 10 000 个 典型 字 
符 串 的 程序 ， 并 测试 Atom_new 的 速度 和 链表 长 度 的 分 布 状况 。 然后 修改 buckets , 
使 它 具 有 2 039 ( 小 于 2 048 的 最 大 素数 ) 个 人 口 ， 将 语句 
h &= NELEMS(buckets) -1; 

改 为 
h %= NELEMS(buckets); 
并 且 重 复 测试 。 使 用 素数 起 到 作用 了 吗 ? XE TRIBUERE BUS, IRA ERB bo 

3.2 翻阅 一 些 关 于 更 好 的 散 列 小数 的 文章 ， 例 如 Knuth (1973b ), 还 有 关于 算法 和 数据 


结构 的 类 似 文章 及 其 参考 文献 以 及 关于 编译 器 的 文章 ， 像 Aho 、Sethi 和 Ullman 


(1986 )。 试 试 这 些 函数 ， 并 测试 它们 的 优点 。 
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3.3 
3.4 


3.5 


3.6 


3.7 


3.8 


3.9 





解释 为 什么 Atom_new 不 使 用 标准 C 库 函数 strncmp 比较 序列 。 
声明 原子 结构 的 男 一 种 方法 如 下 : 
struct atom { 

struct atom *link; 

int len; 

char str[1]; 
h 
对 len 字 节 的 字符 串 ， 我 们 使 用 ALLOC(sizeof(*p) + len) 分 配 一 个 struct atom ， 该 操 
作 将 为 link 和 len 以 及 能 存储 len + 1 个 字 节 的 str 分 配 空间 。 这 种 方法 避免 了 由 于 将 str 
声明 为 指针 所 间接 导致 的 额外 时 间 和 空间 请 求 。 不 幸 的 是 , 这 种 方式 违背 了 C 标 准 ， 
因为 客户 调用 程序 访问 的 字 节 地 址 越过 了 str[0] ， 且 这 种 访问 的 影响 没 被 说 明 。 实 
现 这 种 方法 ， 并 测试 间接 开销 。 为 了 节约 一 点 空间 而 违反 C 标 准 ， 这 值得 吗 ? 
Atom_new 将 struct atom 的 len 字 段 同 输入 序列 的 长 度 做 了 比较 ， 以 避免 比较 不 同 长 
度 的 字符 序列 。 如 果 等 一 个 原子 的 散 列 值 ( 非 buckets 的 编号 ) 也 存 人 struct atom 中 ， 
那么 彼此 也 能 进行 比较 。 实 现 这 种 “改进 "， 并 测试 其 优点 。 这 样 做 值得 吗 ? 
Atom_length 的 运行 时 间 比 较 慢 。 试 修改 Atom 的 实现 以 使 得 Atom_length 的 运行 时 
间 与 Atom_new 的 大 致 相同 。 
因为 Atom 接 口 的 函数 是 客户 调用 程序 最 常用 的 一 类 函数 ， 所 以 它 发 展 为 现在 的 这 
种 形式 。 本 练习 以 及 随后 的 练习 探讨 的 其 他 函数 和 设计 也 可 能 很 有 用 。 请 实现 ; 
extern void Atom init(int hint); 
这 里 hint 估 算 了 客户 调用 程序 所 希望 创建 的 原子 个 数 。 你 应 该 添加 什么 样 的 可 检查 
的 运行 期 错误 以 限制 Atom_init 的 调用 时 机 ? 
有 几 个 释放 原子 的 函数 ， 它 们 应 该 是 Atom 的 扩展 接口 应 该 提供 的 。 例 如 ， 函 数 


extern void Atom free (char *str); 
extern void Atom reset(void); 


可 以 分 别 释放 出 str 给 定 的 原子 和 所 有 的 原子 。 实 现 这 些 函数 ， 别 忘 了 说 明和 实现 相 
应 的 可 检查 运行 期 错误 。 
有 些 客 户 调用 程序 希望 在 运行 开始 时 就 装 人 一 些 字 符 串 作为 原子 供 以 后 使 用 。 请 实现 : 


extern void Atom vload(const char *str, ...); 
extern void Atom aload(const char *strs[]); 


Atom_vload 装 入 了 可 变数 目的 参数 列表 中 给 出 的 所 有 字符 串 ， 直 到 碰 到 一 个 空 指 
fF; Atom_aload 对 以 空 字符 为 结束 符 的 字符 串 指针 数组 实现 了 同样 的 功能 。 

如 果 客 户 调用 程序 保证 不 释放 字符 中 ， 那 么 就 可 以 不 用 拷贝 字符 趾 ， 这 对 字符 常量 
来 说 非常 普遍 。 请 实现 : 

extern const char *Atom add(const char *str, int len); 

它 的 功能 类 似 于 Atom_new ， 但 没有 拷贝 字符 序列 。 如 果 你 提供 了 Atom_add 和 
Atom_free〈 以 及 练习 3.8 中 的 Atom_reset )， 那么 还 需要 说 明和 实现 哪些 可 检查 的 
运行 时 错误 ? 


Me ”异常 与 断言 


程序 中 通常 会 出 现 三 种 错误 : 用 户 错误 、 运 行 期 错误 以 及 异常 。 用 户 错 误 是 在 预料 中 的 ， 
因为 它们 可 能 是 因为 用 户 不 正确 的 输入 引起 的 。 命 名 一 个 并 不 存在 的 文件 ， 或 是 在 电子 表格 
中 输入 非 正 规 的 数据 ， 或 是 提交 给 编译 器 的 源 程序 本 身 就 有 语法 错误 ， 等 等 ， 都 属于 用 户 错 
误 。 程 序 必 须 计 划 并 处 理 这 类 错误 。 通 常 ， 函 数 必 须 处 理 用 户 错误 并 返回 错误 代码 ， 这 些 错 
误 是 计算 过 程 中 很 正常 的 一 部 分 。 

在 前 面 章节 中 提 到 的 可 检查 的 运行 期 错误 是 另 一 种 类 型 错误 。 它 们 不 是 用 户 错 误 。 根 本 
不 在 预料 中 ， 并 且 总 是 揭示 了 程序 的 漏洞 。 因 此 ， 遇 到 这 类 错误 ， 应 用 程序 将 无 法 恢复 ; 但 
它们 必须 要 合理 地 结束 。 本 书 中 的 实现 使 用 断言 来 捕获 这 类 错误 ， 断 言 的 处 理 将 在 4.3 节 中 
给 出 。 断 言 总 是 会 导致 程序 终止 ， 终 止 的 方式 可 能 由 机 器 或 是 应 用 程序 决定 。 

异常 是 介 于 用 户 错 误 和 程序 错误 之 间 的 一 类 错误 。 异 常 是 很 少 出 现 且 可 能 不 可 预测 的 错 
误 ,但 是 从 异常 中 依 复 是 可 能 的 。 某 些 异 常 反应 了 机 器 的 性 能 ， 例 如 算术 溢出 、 下 溢 和 栈 的 
溢出 等 等 。 上 其他 异常 显示 了 操作 系统 所 检测 的 状态 ， 这 些 状态 也 可 以 由 用 户 来 初始 化 ,例如 
点 击 了 “中 断 ” 键 或 写 文件 时 发 生 写 错误 等 ,都 属于 这 类 错误 。 这 类 异常 通常 由 UNIX 系 统 
的 信号 给 出 ， 并 由 信号 处 理 器 进行 处 理 。 当 有 限 的 资源 耗 尽 时 也 会 发 生 异 常 ， 例 如 当 应 用 程 
序 用 尽 了 内 存 或 是 指定 的 电子 表格 太 大 等 等 。 

异常 并 不 会 经 常 发 生 ， 办 此 可 能 会 发 生 异 常 的 函数 通常 不 会 返回 错误 代码 ; 这 样 在 少数 
情况 下 会 造成 代码 的 混乱 ， 而 多 数 情况 下 会 给 程序 带 来 不 确定 性 。 如 果 应 用 程序 产生 的 异常 
是 可 以 恢复 的 ,那么 将 会 触发 异常 ， 并 交 由 恢复 代码 处 理 。 异 党 的 活动 范围 是 动态 的 : 当 发 
生菜 个 异常 的 时 候 ， 它 由 最 近 实 例 化 的 处 理 程序 来 进行 处 理 。 将 控制 权 转 交 给 某 个 处 理 程序 
就 像 是 非 局 部 的 goto 语 句 ， 也 就 是 说 ， 处 理 程 序 可 以 在 远离 触发 异常 的 某 个 例 程 中 实例 化 。 

某 些 程序 设计 语言 多 入 了 实例 化 处 理 程序 和 产生 异常 的 工具 。 在 C 中， 标准 库 函 数 
setjmp 和 longjmp 形 成 了 结构 化 异常 工具 的 基础 。 简 单 地 说 即 setjmp 实 例 化 处 理 程序 ， 而 
longjmp 产 生 异 常 。 

下 面 用 一 个 例子 进行 详细 说 明 。 设 函数 allocate 调 用 malloc 来 分 配 h 个 字 节 ， 并 返回 - .个 
由 malloc 返 回 的 指针 。 然 而 如 果 malloc 返 回 的 是 空 指针 ， 这 说 明 所 需求 的 空间 不 能 分 配 ， 那 
么 allocate 就 要 抛 出 Allocated_Failed 异 常 。 这 个 异常 本 身 在 标准 头 文件 setjmp.h 中 被 声明 为 
jmp_buf. 








#include <setjmp.h> 


int Allocation_handled = 0; 
jmp_buf Allocate_Failed; 
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除非 实例 化 了 某 个 处 理 程序 ， 否 则 Allocation_handled 为 0， 且 allocate 在 抛 出 异常 之 前 会 先 检 
查 Allocation_handled: 


void *allocate(unsigned n) { 
void *new = malloc(n); 


if (new) 
return new; 
if (Allocation handled) 
longjmp(Allocate Failed, 1); 
assert(0); 
} 


在 分 配 失败 而 义 没有 实例 化 任何 处 理 程 序 的 时 候 ，allocate 用 了 一 个 断言 实现 了 可 检查 的 ; 
行 期 错误 。 

处 理 程序 是 调用 setjmp(Allocate_Failed) 来 实例 化 的 ， 该 调用 会 返回 一 个 整数 。setjmp 最 
令 人 感 兴趣 的 特征 是 它 可 以 返回 两 次 。 调 用 setjmp 时 返回 0， 而 在 allocate 中 调用 longjmp 会 引 
起 第 二 次 值 的 返回 ， 该 值 由 longjmp 的 第 二 个 参数 给 出 ， 这 在 上 面 的 例子 中 就 存在 。 因 此 ， 
客户 调用 程序 就 可 以 通过 测试 setjmp 的 返回 值 来 处 理 异常 : 

char *buf; 

Allocation handled - 1; 

if (setjmp(Allocate Failed)) { 


fprintf(stderr, "couldn't allocate the buffer\n"); 
exit(EXIT FAILURE) ; 


i 





H 
buf - allocate(4096); 
Allocation. handled = 0; 


当 setjimp 返 回 0 时 ， 继 续 调 用 allocate 。 如 果 分 配 失 败 ， allocate 中 的 longjmp 引 起 setjmp 再 
一 次 返回 ， 这 次 返回 值 为 ] ， 因 此 ， 继 续 调 用 fprint 和 exit。 

这 个 例子 并 没有 处 理 举 套 的 程序 ， 如 果 上 面 的 代码 调用 函数 makebuffer， 就 有 可 能 出 现 
和 伐 套 的 处 理 程序 ， 因 为 makebuffer 本 身 就 实例 化 了 一 个 处 理 程序 并 且 调 用 了 allocate 。 嵌 套 处 
理 程序 是 必须 提供 的 ， 因 为 客户 调用 程序 可 能 不 知道 实现 出 于 自己 的 目的 也 实例 化 了 某 个 处 
理 程 序 。 而 且 Allocation_handled 标 志 的 使 用 也 很 麻烦 ， 如 果 不 在 恰当 的 时 候 对 它 进 行 设置 
和 清除 就 会 引起 混乱 。 在 下 一 节 中 给 出 的 Except 接 口 将 处 理 这 些 问题 。 


4.1 接口 


Except 搂 口 在 一 系列 宏 指令 和 函数 中 包装 'setjmp/longimp ， 它 们 -一 起 提供 了 一 个 结构 
化 的 异常 处 理工 具 。 这 个 工具 并 不 很 完美 , 但 是 它 避 免 了 上 面 列 出 的 错误 ， 而 使 用 异常 的 地 
方 也 用 宏 指 令 清 楚 地 加 以 标识 。 

常 是 Except_T 类 型 的 一 个 全 局 或 静态 变量 : 
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(except. h)= 
#ifndef EXCEPT. INCLUDED 
#define EXCEPT INCLUDED 
#include «setjmp.h» 


#define T Except. T 
typedef struct T { 

char *reason; 
} T; 


(exported types 53) 
(exported variables 53) 
{exported functions 48) 
(exported macros 48) 


#undef T 
#endif 
Except_T 结 构 只 有 一 个 字段 CT LID RL TS IR EER 。 当 发 生 一 个 未 处 理 的 
异常 时 ， 才 会 把 该 字符 串 打印 出 来 。 
异常 处 理 程序 处 理 的 是 异常 的 地 址 。 异 常 必须 是 全 局 的 或 静态 的 变量 ， 因 此 它们 的 地 址 
惟一 地 标识 了 它们 。 如 果 把 异常 声明 成 一 个 局 部 变量 或 参数 就 会 产生 不 可 检查 的 运行 期 错误 。 
异常 e 由 RAISE 宏 指令 引发 或 由 函数 Except_raise 引 发 : 


(exported macros 48)= 
#define RAISE(e) Except raise(&(e), | FILE. , |. LINE .) 


(exported functions 48)= 
void Except raise(const T *e, const char *file,int line); 


Tess 的 e 传 给 Except_raise 是 可 检查 的 运行 期 错误 。 

处 理 程序 是 由 TRY-EXCEPT 和 TRY-FINALLY 语 句 来 实例 化 的 ， 这 两 个 语句 用 宏 指令 实 
现 。 这 两 个 语句 可 以 处 理 典 套 异 常 ， 也 可 以 管理 异常 状态 的 数据 。TRY-EXCEPT 语 句 的 语 
Wd. 

TRY 


S 
EXCEPT Ce; ) 


Sı 
EXCEPT Ce, ) 
S2 
EXCEPT e, ) 
Sn 

ELSE 
So 
END_TRY 


TRY-EXCEPT iit “at Me, e, …，e*， 的 异常 创建 了 处 理 程序 ， 并 执行 语 名 8。 如果 $ 没 有 
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触发 异常 ， 将 跳 过 处 理 程序 ， 继 续 执行 END_TRY 之 后 的 语句 。 如 果 S 产 生 了 异常 e。 ， 且 e 是 eI 
到 e, 之 间 的 一 个 ， 那 么 8 的 执行 被 中 断 ， 控 制 立 即 转 给 相对 应 的 EXCEPT 从 名 中 的 语句 。 随 后 
拆除 处 理 程序 ， 执 行 EXCEPT 从 名 中 的 处 理 语句 S;， 然 后 继续 执行 END_TRY 之 后 的 语句 。 

如 果 5 产 生 了 一 个 不 在 e1 到 e, 之 间 的 异常 ， 那 么 将 终止 处 理 程序 ， 执 行 ELSE 之 后 的 语句 ， 
然后 继续 执行 END_TRY 之 后 的 语句 。ELSE 从 名 是 可 选 的 。 

如 果 S 产 生 了 一 个 不 由 任何 5; 处 理 的 异常 那么 终止 处 理 程序 ， 且 将 异常 传递 给 前 一 个 执 
行 TRY-EXCEPT 或 TRY-FINALLY 语 句 所 创建 的 处 理 程序 。 

TRY-END-TRY 在 句法 上 等 价 于 一 条 语句 ;TRY 标志 一 个 新 的 作用 域 ， 该 作用 域 在 下 一 
个 EXCEPT ELSE, 、FINALLY 或 END_TRY 处 结束 . 

为 了 说 明 这 些 宏 指令 的 使 用 ,我 们 把 前 一 节 结束 时 的 例子 改写 一 下 。 把 Allocate_Failed 
变 成 一 个 异常 ， 该 异常 是 在 mailloc 返 回 一 个 空 指针 时 由 allocate 引 发 : 


Except T Allocate Failed = { "Allocation failed" }; 


void *allocate(unsigned n) { 
void *new = malloc(n); 


if (new) 
return new; 
RAISE(ATllocate Failed); 


assert(0); 


} 
如 果 客 户 调用 程序 代码 想 处 理 这 个 异常 ， 那 么 它 需 要 在 TRY-EXCEPT 语 句 内 调用 allocate: 


extern Except. T Allocate Failed; 

char *buf; 

TRY 
buf = allocate(4096); 

EXCEPT (Allocate, Failed) 
fprintf(stderr, "couldn't allocate the buffer\n"); 
exit(EXIT, FAILURE) ; 

END. TRY ; 


TRY-EXCEPT 语 句 是 用 setjmp 和 longjmp 来 实现 的 ， 因 此 标准 C 的 使 用 这 些 函 数 的 警告 在 
TRY-EXCEPT 中 也 同样 适用 。 特 别 是 ， 当 8 改变 了 某 个 自 变量 的 值 ， 而 异常 又 使 得 程序 继续 
执行 某 个 处 理 程序 语 名 8, 或 继续 执行 END_TRY 之 后 的 语句 时 ， 那 么 这 种 改变 就 不 存在 了 ， 
例如 ， 程 序 片段 : 


static Except. T e; 
int i = 0; 
TRY 

i++; 

RAISE (e); 
EXCEPT (e) 


dosi 37 





END .TRY; 
printf("XdNn", i); 
可 以 打印 出 0 或 1 ， 这 决定 于 setjmp 和 longjmp 的 实现 细节 。 在 $ 中 改变 的 自 变量 必须 声明 为 
volatile; 例如 ， 如 果 将 i 的 声明 改 为 
volatile int i = 0; 
ABA E ZA AY BI SAT EDIB TS 
TRY-FINALLY 语 名 的 语法 是 : 
TRY 
S 
FINALLY 
Sy 
END_TRY 
如 果 $ 没 有 产生 任何 异常 ， 那 么 执行 Si ， 然 后 继续 执行 END_TRY 之 后 的 语句 。 如 果 8 产 生 了 了 
异常 ,那么 5 的 执行 被 中 断 ， 控 制 立 即 转 给 51。51 执 行 完 后 ， 引 起 $1 执行 的 异常 重新 产生 ， 使 
得 它 可 以 由 前 一 个 实例 化 的 处 理 程序 来 处 理 。 注 意 S$ 是 在 两 种 情况 中 都 必须 执行 的 。 处 理 程 
序 可 以 用 RERAISE 宏 指令 显 式 地 重新 产生 异常 : 
(exported macros 48)+= 


#define RERAISE Except raise(Except frame.exception, \ 
Except. frame.file, Except frame.line) 


TRY-FINALLY iB] Sfr 3 





TRY 
S 
ELSE 
iu" 
RERAISE; 
END_TRY; 
Sı 


注意 : 不 管 是 否 产生 了 异常 ，$1 都 要 执行 。 


我 们 使 用 TRY-FINALLY 语 名 的 目的 是 给 客户 调用 程序 -个 机 会 ， 在 发 生 异 常 的 时 候 来 
“清理 ”现场 。 例 如 : 


FILE *fp = fopen(...); 
char *buf; 
TRY 


buf = allocate(4096); 


FINALLY 
fclose(fp); 
END TRY; 


不 管 分 配 成 功 或 是 失败 都 要 关闭 由 印 打 开 的 文件 。 如 果 分 配 失 败 ， 必须 由 其 他 处 理 程 序 
来 处 理 Allocate_Failed 。 
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GOA TRY-FINALLY 语句 中 的 $1 或 是 TRY-EXCEPT 语 名 中 的 处 理 程序 产生 了 异常， 那么 
该 异常 也 是 由 前 面 实 例 化 的 处 理 程序 来 处 理 。 
简化 语句 : 


TRY 
S 
END. TRY 


等 价 于 : 


TRY 
S 
FINALLY 


END. TRY 
接口 中 的 最 后 一 个 宏 指令 足 


(exported macros 48) 
#define RETURN switch ((pop56),0) default: return 


RETURN 宏 指令 用 在 TRY 语句 内 部 ， 用 来 替代 return 语 句 。 在 TRY-EXCEPT 或 TRY- 
FINALLY 语句 内 部 执行 C 的 return 语 句 是 一 个 不 可 检查 的 运行 期 错误 。 如 果 TRY-EXCEPT 或 
TRY-FINALLY 中 的 语句 必须 要 执行 return ， 那 么 它们 用 这 个 宏 指 令 代 替 通 常 C 的 return 语 句 。 
在 这 个 宏 指令 中 还 使 用 了 了 switch 语句 ， 它 可 以 将 RETURN 或 是 RETURN ef 展 成 句法 上 正确 
的 C 语 句 <pop 56> 的 细节 将 在 下 一 节 中 给 出 。 

Except 接 口中 的 宏 指令 被 公认 为 是 很 粗略 的， 甚至 有 些 脆弱 。 接 口中 不 可 检查 的 运行 期 错 
误 特 别 麻烦 ， 很 难 发 现 。 但 它们 对 大 多 数 应 用 来 说 都 已 经 足够 耻 ， 内 为 异常 应 该 尽量 地 少 用 ， 
一 般 只 在 大 型 应 用 程序 中 少量 使 用 。 如 果 异 常 越 来 越 多 ， 这 通常 说 明 程序 有 更 严重 的 设计 错误 。 


4.2 实现 


Except 接 口中 的 宏 指令 和 函数 一 起 维护 了 一 个 记录 异常 状态 以 及 实例 化 处 理 程序 结构 的 
堆栈 。 结 构 中 的 字段 eny 就 是 setjmp 和 1longjmp 使 用 的 某 个 jimp_buf， 因 此 这 个 堆栈 可 以 处 理 
ESF K, 


(exported types 53)« 
typedef struct Except. Frame Except Frame; 
struct Except Frame { 
Except Frame *prev; 
jmp_buf env; 
const char *file; 
int line; 
const T *exception; 


Nh 


(exported variables 53) 
extern Except Frame *Except, stack; 


ud 
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Except_stack 指 向 异 党 栈 顶 的 异常 帧 ， 每 个 帧 的 prev 字 段 指向 它 的 前 一 帧 。 就 像 前 一 闻 中 
RERAISE 定 义 的 那样 ， 产 生 一 个 异常 就 是 将 异常 的 地 址 存在 exception 字 段 中 ， 并 分 别 在 file 
和 1line 字 段 中 保存 异常 的 附属 信息 一 一 异常 产生 的 文件 以 及 行 号 。 

TRY 从 名 将 一 个 新 的 Except_Frame 压 人 异常 栈 ， 并 调用 setjmp 。 由 RAISE 和 RERAISE 调 
用 Except_raise 填 充 栈 项 帧 的 字段 exception 、file 和 line， 从 异常 栈 中 弹出 栈 顶 Except_Frame ， 
然后 调用 longjmp 。EXCEPT 从 名 检查 该 帧 中 的 exception 字 段 ， 决 定 应 该 用 哪个 处 理 程序 。 
FINALLY 从 句 执行 清除 代码 ， 并 重新 产生 已 弹出 的 异常 帧 中 存储 的 异常 。 

如 果 发 生 了 蜡 常 却 没有 执行 处 埋 控 制 就 达到 了 END_TRY 从 句 ， 将 会 重新 触发 异常 。 

宏 指 令 TRY EXCEPT., ELSE, 、FINALLY 和 END_TRY 一 起 将 TRY-EXCEPT 语 句 转化 
成 如 下 形式 的 语句 ， 


do { 
create and push an Except. Frame 


if (first return from setjmp) ( 


S 

} else if (exceptionis el ) { 
$i 

) else if (exception is e,) { 
S 

} else { 
So 

if (an exception occurred and wasn't handled) 
RERAISE; 

while (0) 


do-while 语 名 使 得 TRY-EXCEPT 语 句 在 语义 上 等 价 于 C 的 语句 ， 因 此 它 可 以 像 任何 其 他 C 语 
名 一 样 使 用 。 例 如 ， 它 也 可 以 用 作 主 语句 的 结果 语句 。 图 4-1 显 示 的 是 常规 TRY-EXCEPT 语 
名 产生 的 代码 ， 带 阴影 的 代码 块 突出 显示 了 扩展 TRY 和 END_TRY 宏 指令 所 产生 的 代码 ; 单 
线条 框 围 住 的 代码 块 足 EXCEPT 宏 指令 的 代码 ， 而 双 线 条 框 围 住 的 代码 块 是 ELSE 宏 指令 的 
代码 。 图 4-2 显 示 的 是 扩展 TRY-FINALLY 语 句 ; 单线 条 低 围 住 的 代码 块 是 FINALLY 宏 指令 
的 代码。 

Except_Frame 的 空间 分 配 很 简单 ， 在 由 TRY 开始 的 do-while 主 体 中 的 复合 语句 内 部 声明 
一 个 该 类 型 的 局 部 变量 即 可 : 





(exported macros 48) 
#define TRY do { \ 
volatile int Except_flag; \ 
Except_Frame Except_frame; \ 
(push 56) \ 
Except flag = setjmp(Except frame.env); \ 
if (Except flag == Except entered) { 
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wy 
EN 








在 TRY 语句 内 有 四 种 状态 ， 由 下 面 的 枚 举 标识 符 给 出 . 


{exported types 53)+= 
enum { Except_entered=0, Except_raised, 
Except. handled, Except finalized }; 


setimp 的 第 一 个 返 画 值 将 Except-flag 设 置 为 Except_entered ， 表 示 进 人 TRY 语句 ， 并 且 将 某 
个 异常 帧 压 人 异常 栈 。Except_enteTed 必 须 为 0 ， 央 为 setjmp 首 次 调用 的 返回 值 为 0; 随后 ， 
setjimp 的 返回 值 将 被 设 为 Except_raised ， 表 示 发 生 了 异常 。 处 理 程序 将 Except_flag 的 值 设 成 
Except_handled ， 表 示 处 理 程序 已 经 对 异常 进行 了 处 理 : 


do { 

volatile int Except.flag; 

Except Frame Except frame; 

Except frame.prev = Except. stack; 

Except stack = &Excépt. frame; 

Except flag = setjmp(Except frame.env); 

-if (Except flag == Except entered) { 
S 
if (Except flag == Except entered) 

Except stack - Except stack-»prev; 

} else if (Except. frame.exception == &(é,)) { 

Except flag - Except. handled; 


Sy 
if (Except flag == Except. entered) 
Except stack = Except stack-»prev; 
) else if (Except frame.exception == &(e,)) 1 
Except flag = Except. handled; 



























if (Except flag == Except entered) 
Except stack = Except stack-»prev; 
Fan 
) else if (Except frame.exception == &(e„)) 1 
Except flag = Except. handled; 









if (Except flag == Except entered) 
Except stack - Except. stack-»prev; 
] else { 


Except flag - Except. handled; 





So 
if (Except flag == Except, entered) 
Except stack = Except stack--prev; 


H 
if (Except flag == Except raised) 
Except.,raiseCExcept. frame. exception, 
Except frame.file, Except frame.line); 
} while (0) l 


图 4-1 TRY-EXCEPT iff 5787 3 HE 
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do { 
volatile int Except flag; 
Except Frame Except. frame; 
Except frame.prev = Except Stack; 
Except. stack: = @Except frame; . 
Except flag = setjmp(Except.frame.env); : 
if (Except flag == Except entered) [  - 

S 

if (Except flag == Except entered) 

Except stack = Except. stack-»prev; 










Pt 
if (Except flag == Except entered) 
Except flag = Except. finalized; 


$i 
if (CExceptuflag.== Except entered) 
Except. stack = Except stack-»prev; 


H 
if (Except flag == Except raised) 
Except rai se(Except. frame.exception, x 
Except.frame.file, Exceptframe. line) ; 
) while (0) 


图 4-2 TRY-FINALLY 语句 的 扩展 


Except_Frame 的 入 栈 操作 足 将 它 插入 到 Except_stack 指 向 的 Except_Frame 结 构 链表 的 表 
头 ， 而 栈 硕 帧 的 出 栈 操作 足 将 它 从 链表 中 移出 : 


(push 56)= 
Except. frame.prev = Except stack; \ 
Except stack - &Except frame; 


(pop 56)= 

Except stack = Except. stack-»prev 
EXCEPT JA 1] TJR T AA 4- 1 Bras Helse-ifif A] 。 
(exported macros 48)+= 

#define EXCEPTCe) \ 


(pop if this chunk follows S 57) \ 
) else if (Except. frame.exception == &(e)) { \ 
Except_flag = Except_handled; 


(pop if this chunk follows S 57)= 
if (Except flag == Except entered) (pop 56); 


(dH dS Sb PLE MEAS rel EUIS. BER pop if this chunk follows S 572 {VEG JE 
样 ， 这 个 代码 块 出 现在 上 述 EXCEPT 定 义 中 的 else- 计 语句 之 前 ,而 且 仪 仪 只 在 第 一 个 EXCEPT 
从 名 中 将 异常 栈 的 栈 项 元 素 弹 出 .如果 在 执行 TS 的 时 候 没 有 发 生 异 常 ，Except_flag 的 值 将 仍 
ok yExcept_entered ， 这 样 当 控 制 到 达 这 语句 时 ， 异 常 栈 进行 出 栈 操作 。 第 二 个 以 及 接 下 来 的 
EXCEPT 从 人 名 将 在 Except_fag 灾 为 ExceptL_handled 的 处 理 程序 之 后 执行 -因为 前 面 的 执行 步骤 ， 





56 
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异常 栈 已 经 进行 了 出 栈 操 作 ， 并 且 <pop if this chunk follows S 57> 中 的 证 语句 保证 不 会 再 次 进 


行 出 栈 操作 。 
ELSE 从 旬 和 EXCEPT 从 句 类似， 但 是 else-if 只 是 一 个 else: 


(exported macros 48)+= 
#define ELSE \ 
(pop if this chunk follows S 57) N 
} else { \ 
Except flag = Except. handled; 


同样 ，FINALLY 与 ELSE 类 似 ， 但 是 没有 else 语 句 : 


(exported macros 48)+= 
define FINALLY \ 
(pop if this chunk follows S 57) N 
iN 
if (Except flag == Except entered) \ 
Except flag - Except. finalized; 


在 这 里 ，Except_flag 从 Except_entered 变 为 Except_finalized ， 说 明 并 没有 发 生 异 常 ， 但 是 却 
出 现 了 FINALLY 从 句 。 如 果 发 生 了 蜡 常 ，Except_flag 的 值 将 仍 为 Bxcept_raised ， 这 样 在 执 
行 完 清 除 代码 后 ， 可 以 重新 引发 异常 ， 该 异常 可 通过 检测 在 扩展 END_TRY 中 Except_flag 标 
志 的 值 是 否 等 于 Except_raised 来 触发 。 如 果 没 有 发 生 异 常 ， 那 么 Except_flag 的 值 将 会 是 
Except_entered 或 Except_finalized : 


(exported macros 48s 
#define END. TRY N 
(pop if this chunk follows S 57) N 
} if (Except flag == Except raised) RERAISE; \ 
) while (0) 


except.c 中 Except_raise 的 实现 是 最 后 一 个 难点 ， 


(except.c)« 
#include <stdlib.h> 
#include <stdio.h> 
#include "assert.h" 
#include "except.h" 
#define T Except T 


Except Frame *Except stack = NULL; 


void Except raise(const T *e, const char *file, 
int line) { 
Except Frame *p = Except stack; 


assert(e); 
if (p == NULL) { 

(announce an uncaught exception 59) 
i 


p->exception = e; 
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p->file = file; 
p->line = line; 
(pop 56); 


longjmp(p->env, Except_raised); 


} 

如 果 在 异常 栈 的 栈 顶 有 一 个 Except_Frame H Except raise 5 F exception , file Ll A 
line， 并 将 异常 栈 的 栈 项 元 素 弹 出 ， 然 后 调用 longjmp 。 相 应 的 setjmp 调 用 将 返回 
Except raised; 7ETRY-EXCEPTRTRY-FINALLY 语句 中 ， Except flag 的 值 变 为 
Except_raised ， 并 执行 相应 的 处 理 程序 。Except_raise 对 异常 栈 进行 出 栈 操作 ， 这 样 ， 如 果 
某 个 处 理 程序 中 发 生 了 异常 ， 该 异常 可 交 由 TRY-EXCEPT 语 句 来 处 理 ， 因 为 该 异常 的 帧 现 
在 已 经 在 异常 栈 的 栈 顶 了 。 

如 果 蜡 常 栈 为 空 ， 那 么 就 不 存在 处 理 程序 ,因此 Except_raise 只 能 声明 异常 为 未 处 理 的 
异常 并 终 止 程序 : 


(announce an uncaught exception 59)= 
fprintf(stderr, "Uncaught exception"); 
if (e-»reason) 

fprintf(stderr, " %s", e->reason) ; 
else 
fprintf(stderr, " at Ox%p", e); 
if (file && line > 0) 
fprintf(stderr, " raised at %s:%d\n", file, line); 
fprintf(stderr, “aborting...\n"); 
fflush(stderr); 
abortQ; 


abort 是 一 个 标准 C 库 函数 ， 它 终止 送行， 有 时 还 会 执行 与 机 右 相 关 的 附加 操作 。 例 如 ， 它 可 
能 打开 一 个 调试 程序 或 仅仅 进行 内 存 的 转 储 拷贝 。 


43 断言 


一 般 标 准 要 求 头 文件 assert.h 把 assert(e) 定 义 成 一 个 提供 诊断 信息 的 宏 指 令 。assert(e) 对 e 
求 值 ， 如 果 e 为 0 ， 那么 在 标准 错误 上 写 上 诊断 信息 并 调用 标准 库 函 数 abort 中 断 执行 。 诊 断 信 
E GS AH A Cel AZ ) 以 及 assert(e) 出 现 的 位 置 (文件 以 及 行 号 )。 信息 的 格式 由 具 
体 实现 定义 。 用 assert(0) 标 识 “ 不 可 能 发 生 ” 的 状态 就 是 一 种 很 好 的 方法 。 其 他 表示 断言 的 
方法 ， 像 : 

assert(!"ptr==NULL -- can't happen") 

可 以 显示 更 多 有 意义 的 诊断 信息 。 

assert.h 也 使 用 了 宏 指令 NDEBUG ， 但 是 没有 对 它 进 行 定 义 。 如 果 定 义 了 NDEBUG， 那 
么 assert(e) 一 定 与 空 表 达 式 ( (void ) 0 ) 等 价 。 内 此 ,程序 员 可 以 通过 定义 NDEBUG ， 并 重新 
编译 来 关 掉 断言 。 因 为 e 不 - - 定 要 执行 ， 因此 它 不 能 是 有 附带 影响 的 基本 计算 ， 就 像 赋值 操 
作 那 样 ， 这 点 很 重要 。 
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assert(e) 是 一 个 表达 式 ， 央 此 大 多 数 版 本 的 assert.h 在 逻辑 上 都 等 价 于 : 


fundef assert 

#ifdef NDEBUG 

#define assert(e) ((void)0) 

#else 

extern void assert(int e); 

#define assert(e) ((void)(Ce) I| \ 
(fprintf(stderr, "%s:%d: Assertion failed: %s\n", \ 
— FILE ., Cint) LINE , £e), abortQ, 0))) 

#endif 


(实际 的 assert.h 通 常 与 这 个 不 一 样 ， 因 为 实际 情况 并 不 允许 为 了 使 用 fprintf 和 stderr 而 包含 
stdio.h )。 类 似 于 eitlle; 的 表达 式 经 常 出 现在 条 件 语 境 中 ， 例 如 if 语 句 ， 但 是 它 也 可 以 作为 单独 
的 语句 出 现 。 当 它 单独 出 现 的 时 候 ， 效果 等 价 于 语句: 
if (!(e,)) e>; 
assert 的 定义 使 用 了 语句 ellle,， 这 是 因为 assert(e) 必 须 扩 展 成 一 个 表达 式 ， 而 不 是 一 个 语句 。 
e2? 是 一 个 逗号 表达 式 ， 它 的 返回 结果 是 一 个 值 ， 这 是 I| 操 作 符 的 要 求 ， 而 整个 表达 式 最 后 的 
是 空 ， 因 为 标准 规定 assert(e) 是 没有 返回 值 的 。 在 标准 的 C 预 处 理 器 中 ， 习 惯用 法 疙 将 产 
生 一 个 字符 串 ， 它 的 内 容 是 e 表 达 式 内 容 中 的 字符 。 
Assert 接 口 定义 的 assert(e) 与 标准 中 定义 的 类 似 , 不 同 的 是 断言 失败 将 触发 一 个 
Assert_Failed 异 常 ， 而 不 是 终止 运行 ， 并 且 不 提供 断言 e 的 内 容 : 
(assert.h)= 
#undef assert 
#ifdef NDEBUG 
#define assert(e) ((void)0) 
#else 
#include "except.h" 
extern void assert(int e); 


#define assert(e) ((void)(CeJI| (RAISE(Assert Failed),0))) 
#endif 


(exported variables 53)= 
extern const Except_T Assert_Failed; 


Assert 模 仿 了 标准 中 的 定义 ， 因 此 这 两 个 assert.h 头 文件 可 交替 地 使 用 ， 这 也 就 是 为 什么 在 
except.h 中 会 出 现 Assert_Failed 的 原因 。 这 个 结构 的 实现 很 简单 : 
(assert.c)s 
#include "assert.h" 


const Except T Assert Failed = { "Assertion failed" }; 


void (assert) Cint e) { 
assert(e); 


} 
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函数 定义 中 assert 两 端的 括号 禁止 了 密 指 令 assert 的 扩展 ， 这 样 就 可 以 按 接 口 要 求 的 方式 来 定 
SX ELS 
如 果 客 户 调用 程序 不 处 理 Assert_Failed ， 那 么 断言 失败 会 引起 程序 的 中 断 ， 并 给 出 如 下 


= 
n 
T 


Uncaught exception Assertion failed raised at stmt.c:201 
aborting... 


该 信息 在 功能 上 等 价 于 针对 具体 机 器 版 本 的 assert.h 中 的 诊断 信息 。 

把 断言 打包 ， 使 得 当 它们 失败 时 会 引发 异常 ， 这 有 助 于 处 理 产品 程序 中 出 现 了 断言 的 情 
况 。 一 些 程序 员 建 议 不 把 断言 留 在 产品 程序 中 ， 并 通过 assert.h 中 使 用 DEBUG 的 标准 来 支 
持 这 个 建议 。 不 把 断言 留 在 产品 中 最 常用 的 两 个 理 出 就 是 有 效 性 和 隐藏 诊断 信息 的 可 能 性 。 

执行 断言 需要 一 定 的 时 间 ， 央 此 把 断言 移出 可 以 使 程序 运行 得 更 快 。 然而， 有 断言 和 没 
断言 的 程序 在 执行 时 间 上 的 差别 是 可 以 度量 的 ， 而 这 个 差别 通常 是 很 小 的 。 为 了 有 效 性 而 消 
除 断 言 和 为 了 改进 运行 时 间 而 进行 的 其 他 变动 一 样 ， 其 必要 性 依赖 于 客观 的 度量 结果 。 

当 度 量 的 结果 表明 执行 断言 花费 很 高 时 ， 有 可 能 为 了 减少 花费 而 去 掉 断 言 ， 同 时 义 不 失 
去 其 好 处 。 例 如 ， 假 设 h 包 含 了 某 个 开销 很 高 的 断言 时 ， 而 f 和 g 都 调用 h ， 且 度量 结果 表 角 大 
部 分 的 时 间 花 费 在 g 对 4 的 调用 上 ， 因 为 8 对 h 的 调用 是 在 循环 内 进行 的 。 经 过 仔细 地 分 析 后 ， 
你 会 发 现 h 中 断言 既 可 以 移 到 f 中 ， 也 可 以 移 到 g 中， 并 放 在 g 的 循环 之 前 。 

关于 断言 的 一 个 更 严重 的 问题 是 ， 它 们 可 能 会 引发 像 前 面 提 到 的 断言 失败 之 类 的 诊断 信 
息 ， 这 样 会 迷惑 客户 调用 程序 。 但 是 去 掉 断 言 ， 取 代 这 些 诊 断 信 息 可 能 会 引起 更 大 的 问题 。 
当 某 个 断言 失败 时 ,那么 程序 就 是 错 的 。 如 果 程 序 继续 ， 它 就 会 产生 不 可 预测 的 结果 ， 而且 
{RA ORE Att. FEV 

General protection fault at 3F60:40EA 
或 是 

Segmentation fault -- core dumped 
的 信息 都 不 会 比 前 面 的 断言 失败 的 诊断 信息 好 到 哪 去 。 更 糟糕 的 是 ， 在 出 现 了 某 个 可 能 会 引 
起 程序 终止 的 断言 失败 后 而 义 继续 执行 的 程序 ， 很 可 能 会 破坏 用 户 的 数据 。 例 如 ， 编 辑 器 可 
能 会 破坏 用 户 的 文件 ， 而 这 种 破坏 是 无 法 弥补 的 。 

要 隐藏 断言 失败 的 诊断 信息 所 带 来 的 问题 ,可 以 用 程序 的 产品 版 本 中 最 外 层 的 TRY-EXCEPT 
语句 来 处 理 。 该 程序 可 以 找到 所 有 的 未 处 理 的 异常 ， 并 给 出 更 有 帮助 的 诊断 信息 。 例 如 : 

#include «stdlib.h» 


#include <stdio.h> 
#include "except.h" 


int main(int argc, char *argv[]) { 
TRY 
edit(argc, argv); 
ELSE 
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fprintf(stderr, 
"An internal error has occurred from which there is " 
“no recovery.\nPlease report this error to " 
"Technical Support at 800-777-1234.\nNote the " 
"following message, which will help our support " 
"staffNnfind the cause of this error.\n\n") 

RERAISE; 
END. TRY; 
return EXIT. SUCCESS; 


} 
当 发 生 了 一 个 未 处 理 的 异常 时 ， 这 个 处 理 程序 在 隐藏 诊断 信息 之 前 先 给 出 了 报告 错误 的 
指令 。 例 如 ， 如 果 出 现 了 断言 失败 的 话 ， 它 将 会 打印 出 : 


An internal error has occurred from which there is no recovery. 
Please report this error to Technical Support at 800-777-1234. 
Note the following message, which will help our support staff 
find the cause of this error. 


Uncaught exception Assertion failed raised at stmt.c:201 
aborting... 


参考 书目 浅 析 


好 几 种 程序 设计 语言 都 嵌入 了 异常 处 理 机 制 ， 例 如 Ada Modula-3(Nelson 1991), 
Eiffel(Meyer 1992) 以 及 C++(Ellis 和 Stroustrup 1990), Except 接 口中 的 TRY-EXCEPT 语 句 就 
是 模仿 的 Modula-3 中 的 TRY-EXCEPT 语 句 。 

C 语 言 提 出 了 几 种 异常 处 理 机 制 ， 它 们 都 提供 了 类 似 TRY-EXCEPT 语 名 的 功 能 ， 有 时 在 
语法 和 语义 上 有 些 改变 。Roberts(1989) 描 述 了 一 个 异常 处 理 功能 的 接口 ， 它 与 Except 接 口 提 
供 的 功能 相同 。 它 的 实现 是 类 似 的 ， 但 是 在 发 生 异 常 时 ， 它 更 有 效 。 Except_raise 调 用 longjmp 
把 控制 转 给 某 个 处 理 程序 。 如 果 这 个 处 理 程序 没有 处 理 异 常 ， 那 么 Except_raise 会 再 次 调用 
longjmp 。 如 果 要 处 理 异常 的 是 异常 栈 中 的 第 N 个 异常 帧 ，Except_raise 和 longjmp 将 会 被 调用 N 
次 。Roberts 的 实现 只 需要 调用 一 次 就 能 找到 相应 的 处 理 程序 或 是 找到 第 一 个 FINALLY 从 句 。 
为 了 达到 这 个 效果 ， 它 必须 对 TRY-EXCEPT 语 句 中 的 异常 处 理 程序 的 数 目 设置 一 个 上 界 。 一 
些 C 编 译 器， 如 微软 的 c 编 译 器 ， 就 提供 了 结构 化 的 异常 处 理工 具 作 为 程序 设计 语言 的 扩展 。 

一 些 程序 设计 语言 同样 也 嵌 人 了 断言 机 制 ， 例 如 Eiffel。 大 多 数 程序 设计 语言 使 用 的 是 
类 人 assert 宏 指令 或 其 他 编译 指令 的 工具 来 指明 断言 。 例 如 ，Digital 的 Modula-3 编 译 器 可 以 
识别 形 如 <*ASSERT expression*> 的 注释 作为 声明 断言 的 编译 参数 。 Maguire(1993) H 1 — 
整 章 来 介绍 了 C 程 序 中 断言 的 使 用 。 
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4.1 有 既 有 EXCEPT 又 有 FINALLY 的 语句 ， 其 执行 效果 如 何 ? 诸 名 的 形式 为 
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EXCEPT (e,) 
3 


EXCEPT(e,) 
Sn 
FINALLY 
So 
END_TRY 


修改 Except 接 口 与 实现 ， 使 得 Except_raise 只 凋 用 longjmp 来 找到 相应 的 处 理 程序 或 
FINALLY A^], ， 就 像 上 面 内 容 描述 的 ， 由 Roberts(1989) 实 现 的 程序 一 样 。 

UNIX 系 统 使 用 信和 号 来 通知 某 些 异 常情 况 ， 例 如 浮 点 溢出 或 是 用 户 点 击 了 中 断 键 。 
研究 UNIX 的 信号 指令 系统 ， 设 计 并 实现 一 个 将 信号 转变 成 异常 的 信号 处 理 程序 的 
接口 。 

当 程 序 被 终止 时 ， 一 些 系统 会 打印 出 栈 的 记录 。 在 程序 终止 时 ， 这 些 记录 会 显示 出 
过 程 调 用 栈 的 状态 ,还 可 能 包括 过 程 名 和 和 参数。 修改 Except_raise ， 当 出 现 未 处理 
的 异常 时 打印 出 栈 的 记录 。 根 据 计 算 机 的 调用 习惯 ， 你 可 能 会 打印 出 过 程 名 以 及 调 
用 的 行 号 。 例 如 ， 记 录 的 形式 可 能 如 下 : 

Uncaught exception Assertion failed 

raised in whilestmt() at stmt.c:201 

called from statement() at stmt.c:63 

called from compound() at decl.c:122 

called from funcdefn() at dec1.c:890 

called from dec1O at decl.c:95 

called from program() at decl.c:788 


called from main() at main.c:34 
aborting... 


在 一 些 系 统 上 ， 当 程序 检测 到 错误 的 时 候 ， 可 以 自己 调用 调试 程序 。 在 断言 失败 很 
常见 的 开发 阶段 ， 这 是 特别 有 用 的 。 如 果 你 的 系统 支持 这 个 功能 ， 那 么 试 着 修改 
Except_raise ， 当 出 现 未 处 理 的 异常 时 打开 调试 程序 ， 而 不 是 调用 abort ， 并 尝试 将 
你 的 实现 形成 产品 程序 ; 也 就 是 说 ， 看 看 在 运行 阶段 它 是 否 会 调用 调试 程序 。 

如 果 你 可 以 得 到 某 个 C 的 编译 器 ， 例 如 lcc(Fraser 和 Hanson 1995), ABA Sid ERIK 
编译 器 ， 但 不 使 用 setjmp 和 longjmp ， 使 编译 器 能 够 支持 异常 、TRY 语 名 以 及 具有 
本 章 中 描述 的 语法 和 语义 的 RAISE 和 RERAISE 表 达 式 。 你 可 能 需要 实现 类 似 setjmp 
和 longijmp 的 机 制 ， 但 要 求 它 专 用 于 异常 处 理 。 例 如 ， 只 使 用 少数 的 指令 来 实例 化 
处 理 程 序 一 般 是 可 行 的 。 人 警告 : 这 个 练习 是 大 型 的 项 目 。 
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所 有 不 平凡 的 C 程 序 都 会 在 运行 阶段 分 配 内 存单 元 的 。 标 准 的 C 程 序 库 提供 了 四 个 内 存 
管理 的 例 程 : malloc calloc, 、realloc 和 free 。 接 口 Mem 用 一 系列 宏 指 令 和 例 程 重新 包装 了 这 
些 例 程 ， 使 得 这 些 例 程 错 误 更 少 ， 并 且 还 提供 了 一 些 其 他 的 功能 。 

不 幸 的 是 ， 内 存 管 理 错 误 在 C 中 是 很 普遍 的 ， 而 且 它 们 通常 很 难 检测 和 修复 。 例 如 ， 程 
序 片 段 : 


p = malloc(nbytes) ; 





free(p); 
调用 malloc 来 分 配 一 个 大 小 为 nbytes 的 存储 块 (block )， 并 将 存储 块 第 一 个 字 节 的 地 址 赋值 
给 p， 然 后 使 用 p 和 它 指向 的 存储 块 ， 最 后 释放 该 内 存单 元 。 在 调用 完 free 后 , p 中 存储 指针 
变 成 悬挂 指针 ， 即 一 个 指向 逻辑 上 并 不 存在 的 内 存单 元 的 指针 。 随 后 对 p 的 间接 引用 就 会 产 
生 错 误 ， 尽 管 存 储 块 并 没有 因为 其 他 的 目的 而 被 重新 分 配 ， 而 这 个 错误 也 很 难 检测 到 ， 即 使 
检测 到 了 ， 其 发 生地 和 发 生 时 间 也 可 能 是 远离 错误 源 的 。 


程序 片段 

p = malloc(nbytes); 

free(p) ; 
free(p); 


说 明了 另 一 种 错误 ;， 释放 空闲 内 存单 元 。 这 个 错误 通常 会 破坏 内 在 管理 函数 所 使 用 的 数据 结 
构 ， 但 是 它 可 能 直到 下 一 次 这 些 函 数 被 调用 时 才 被 发 现 。 
男 一 个 错误 是 释放 的 内 存单 元 并 不 是 由 malloc 、calloc 或 realloc 分 配 的 。 例 如 : 


char buf[20], *p; 
if (n >= sizeof buf) 
p = malloc(n); 
else 
p = buf; 


free(p); 
上 面 这 段 程序 的 目的 是 避免 在 puf 的 大 小 大 于 等 于 n 时 进行 空间 分 配 ; 但 是 当 p 指 向 buf 时 ， 代 
码 调用 free 就 会 引起 错误 。 而 有 全， 这 个 错误 通常 会 破坏 内 存 管 理 的 数据 结构 ， 而 且 到 运行 以 
后 才 会 被 检查 到 。 

最 后 ， 函 数 
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void itoaCint n, char *buf, int size) { 
char *p = malloc(43); 


sprintf(p, "%d", n); 

if (strlen(p) >= size - 1) { 
while (--size > 0) 

*buf++ = '*'; 

*buf = '\0'; 

} else 
strcpy(buf, p); 

} 


用 十 进 制 整数 n 来 填充 数组 buf[0..size-1] ， 当 表示 的 结果 多 于 size-1 个 字符 时 用 “*” 来 填充 
数组 。 这 个 代码 看 上 去 很 健壮 ， 但 是 它 却 至 少 包 含 了 两 个 错误 。 第 一 个 错误 当 分 配 失 败 时 
malloc 会 返回 一 个 空 指针 ， 而 代码 并 没有 检测 该 情况 。 第 二 个 错误 ， 代码 产生 了 内 存 泄漏 ， 
它 并 没有 将 它 分 配 的 内 存单 元 收回 。 在 每 次 调用 itoa 时 ， 程 序 会 慢 慢 地 消耗 内 存 。 如 果 itoa 被 
经 常 调用 ,那么 程序 最 后 会 耗 尽 内 存 而 导致 失败 。 同 时 ， 当 size 小 于 2 的 时 候 ，itoa 仍 然 会 正 
确 地 工作 ， 但 是 它 将 buf[0] 署 成 了 空 字 符 。 可 能 在 某 个 更 好 的 设计 中 会 要 求 size 必 须 超过 2 , 
并 用 一 个 可 检查 的 运行 期 错误 来 增强 该 限制 条 件 。 

Mem 接 口中 的 宏 指令 和 例 程 提供 了 一 些 保护 措施 来 防止 这 类 内 存 管理 错误 的 发 生 。 但 是 
它们 并 没有 消除 这 类 错误 。 例 如 ， 它 们 不 能 防止 间接 引用 已 破坏 的 指针 或 是 使 用 超出 了 范围 
的 局 部 变 景 指针 等 等 。C 初 学 者 通常 会 犯 后 面 一 种 错误 ， 以 下 这 个 简单 版 本 的 itoa 函 数 就 是 
这 样 的 例子 : 


char *itoa(int n) ( 
char buf[43]; 


sprintf(buf, "Xd", n); 
return buf; 


} 
一 旦 itoa 返 回 的 是 其 局 部 变量 buf 的 地 址 ，buf 就 不 再 存在 了 。 


5.1 接口 


Mem 接 口 导 出 了 蜡 常 、 例 程 和 宏 指 令 : 


(mem. h)= 
ftifndef MEM INCLUDED 
#define MEM INCLUDED 
#include "except.h" 


(exported exceptions 70) 
(exported functions 70) 
(exported macros 70) 


fendif 
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Mem 的 分 配 函 数 与 标准 C 函 数 库 中 的 分 配 函 数 类 似 ， 但 是 它们 不 接收 大 小 为 0 的 分 配 ， 
也 不 会 返回 空 指针 : 
(exported exceptions 70)= 


extern const Except T Mem Failed; 


(exported functions 70)= 
extern void *Mem alloc (long nbytes, 
const char *file, int line); 
extern void *Mem calloc(long count, long nbytes, 
const char *file, int line); 


Mem_alloc 分 配 一 个 大 小 至 少 为 nbytes 的 存储 块 ， 并 返回 一 个 指向 第 一 个 字 节 的 指针 。 
该 存储 块 是 按 某 个 地 址 边界 进行 调整 的 ， 这 种 调整 通过 有 很 严格 的 边界 调整 要 求 的 数据 得 以 
实现 。 存 储 块 中 的 内 容 是 未 初始 化 的 。 如 果 nbytes 是 一 个 非 正 数 ， 那 么 这 将 是 一 个 可 检查 的 
运行 期 错误 。 

Mem_calloc 分 配 足够 大 的 存储 块 ， 使 得 可 以 存 下 count 个 元 素 的 数组 ， 每 个 元 素 的 大 小 
为 nbytes ， 并 返回 一 个 指向 第 一 个 元 素 的 指针 。 存 储 块 采 用 与 Mem_alloc 相 同 的 边界 调整 ， 
并 被 初始 化 为 0。 空 指针 和 0.0 并 不 一 定 会 表示 成 0 , 因此 Mem_calloc 可 能 会 不 正确 地 初始 化 
存储 块 。 如 果 count 或 nbytes 为 非 正 数 ， 那 么 这 也 是 一 个 可 检查 的 运行 期 错误 。 

Mem_alloc 和 Mem_calloc 的 最 后 两 个 参数 是 调用 所 在 文件 的 文件 名 和 行 号 。 它 们 由 下 面 
的 宏 指令 来 给 出 ， 这 些 宏 指 令 也 是 调用 这 些 函 数 的 最 常用 的 方式 。 


(exported macros 70)= 
#define ALLOC(nbytes) N 


Mem alloc((nbytes), |. FILE. ., | LINE ) 
#define CALLOC(count, nbytes) \ 
Mem_calloc((count), (nbytes), . FILE , . LINE. ) 


如 果 Mem_alloc 或 是 Mem_calloc 不 能 分 配 所 要 求 的 内 存单 元 , 那么 它们 会 产生 异常 Mem_Failed ， 
并 将 file 和 iline 传 给 Except_raise ， 将 产生 错误 的 位 置 写 人 异常 报告 中 。 如 果 file 是 空 指 针 ， 那么 
Mem_alloc 和 Mem_calloc 将 在 Mem_Failed 异常 的 实现 中 将 位 置信 息 补 充 上 。 

许多 分 配 操作 具有 以 下 格式 : 


struct T *p; 
p = Mem_alloc(sizeof (struct T)): 


它 为 结构 T 的 某 个 实例 分 配 一 个 内 存单 元 ， 并 返回 一 个 指向 该 内 存单 元 的 指针 。 这 种 习惯 用 
法 的 更 好 形式 是 : 

p = Mem alloc(sizeof *p); 
用 sizeof *p{t#sizeof(struct T) ， 这 样 对 除了 空 指针 以 外 的 任何 类 型 的 指针 都 可 以 完成 分 配 ， 
Jf Hsizeof *p 是 独立 于 指针 类 型 的 。 如 果 p 的 类 型 改变 了 ， 这 种 分 配 仍然 是 正确 的 ， 但 是 如 
果 使 用 的 是 sizeof(struct T) ， 就 必须 修改 语句 来 反映 p 的 类 型 变化 。 也 就 是 说 语句 


p = Mem alloc(sizeof (struct T)); 
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配 过 少 的 内 存单 元 ， 这 样 客户 调用 程序 有 可 能 对 未 分 配 的 内 存单 元 中 的 内 容 进 行 修改 ， 这 将 
带 米 严重 的 问题 。 
这 种 分 配 习惯 是 很 常用 的 ， 央 此 Mem 提 供 的 宏 指 令 封装 了 分 配 和 赋值 操作 : 
(exported macros 70)+= 


#define NEW(p) ((p) = ALLOCCClong)sizeof *(p))) 
#define NEWO(p) (Cp) = CALLOC(1, Clong)sizeof *(p))) 


NEW(p) 分 配 了 一 个 未 初始 化 的 存储 块 来 存储 *p ， 并 把 存储 块 的 地 址 赋 给 p 。NEW0(p) 完 成 同 
样 的 功能 ,不 同 的 是 它 同 时 也 清除 了 存储 块 中 的 内 容 。 提 供 NEW 是 建立 在 假设 大 多 数 客 户 
调用 程序 会 在 分 配 后 立即 对 内 存单 元 进行 初始 化 的 基础 之 上 的 。 编 译 阶段 的 操作 符 sizeof 的 
参数 只 用 来 指明 它 的 类 型 ， 在 运行 阶段 并 不 求 值 。 因此 NEW 和 NEW0 只 对 p 求 一 次 值 ， 并 且 
在 这 两 个 宏 指 令 中 使 用 具有 附加 功能 的 表达 式 作为 实 参 也 是 很 安全 的 。 例 如 NEW(afi++]) 。 

的确 才 sizeof 产 生 一 个 size_t 类 型 的 常数 。 类 型 size_t 
是 一 个 无 符号 的 整数 类 型 ， 可 以 表示 能 声明 的 最 大 对 象 的 大 小 ， 并 且 不 管 对 象 的 大 小 在 哪里 
ee, EARE LATE ERSTE PO ER BCP AY SER E, size tH TU ROC AES BU OR, AT E 
无 符号 的 长 整数 。Mem_alloc 和 Mem_calloc 采 用 整 型 参数 ， 以 避免 出 现 将 负数 传 给 无 符号 参 
数 的 错误 。 例 如 : 


int n = -1; 


p = malloc(n); 
明显 就 是 错误 的 ， 但 是 许多 malloc 的 实现 都 不 会 发 现 这 个 错误 ， 闪 为 -1 在 被 转换 成 了 一 个 
size_t 类 型 的 数 后 ， 通 常 是 一 个 很 大 的 无 符号 数 。 

内 存单 元 的 释放 是 由 Mem_free 实 现 的 : 


(exported functions 70)+= 
extern void Mem_free(void *ptr, 
const char *file, int line); 


(exported macros 70)+= 
#define FREECptr) ((void) (Mem free((ptr), N 
—FILE. , ..LINE. ), (ptr) = 0)) 
Mem_free 接 收 一 个 指向 需 被 释放 的 存储 块 的 指针 作为 参数 。 如 果 ptr 不 为 空 ， 那么 Mem_free 
释放 该 存储 块 ; 如 果 ptr 为 空 ， 那 么 Mem_free 什 么 也 不 做 。 "E18 $FREE 同样 接收 一 个 指针 作 
为 参数 ， 并 调用 Mem_free 来 释放 存储 块 ， 然 后 将 ptr 赋 为 空 指针 ， 就 像 2.4 节 中 提 到 的 都 样 ， 
这 样 可 以 帮助 我 们 避免 出 现 悬 挂 指针 。 因 为 ptr 在 它 所 指 的 对 象 被 释放 后 ， 就 变 为 空 ， 因 此 此 
后 的 间接 引用 通常 会 因为 某 类 型 的 地 址 错误 而 引起 程序 崩溃。 这 种 明显 的 错误 比 间接 引用 某 
个 悬挂 指 针 可 能 引起 的 不 可 预测 的 后 果 要 好 的 多 。 注 意 : FREE 对 ptr 进 行 了 多 次 求 值 。 
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在 随后 章节 的 细节 描述 中 , 将 有 两 个 实现 导出 Mem 接 口 。 校 验 实现 ( checking implementation ) 
通过 检测 运行 期 错误 以 帮助 捕获 前 一 节 中 所 描述 的 那些 存 取 访问 铺 误 。 在 该 实现 中 ， 如 果 将 一 个 
并 不 是 由 Mem_alloc 、Mem_calloc 或 Mem_resize 返 回 的 非 空 ptr 或 者 某 个 已 经 传 给 Mem_free 或 
Mem_resize 的 ptr 传 给 Merm_free 时 ， 会 产生 可 检查 的 运行 期 错误 。Mem_free 的 file 和 line 参 数值 用 来 
报告 这 些 运行 期 错误 。 

但 足 ， 在 产品 级 实现 (production implementation) 中 ， 这 些 存 取 访 问 错误 都 是 不 可 检 
查 的 运行 期 错误 。 

函数 : 


(exported functions 70)+= 
extern void *Mem resize(void *ptr, long nbytes, 
const char *file, int line); 


(exported macros 70)+= 
#define RESIZE(ptr, nbytes) ((ptr) = Mem_resize((ptr), N 
(nbytes), .. FILE , |. LINE D) 


改变 了 前 面 调用 Mem_alloc 、Mem_calloc 或 Mem_resize 分 配 得 到 的 在 储 块 的 大 小 。 与 
Mem_free 一 样 ，Mem_resize 的 第 一 个 参数 存放 需要 改变 大 小 的 存储 块 的 地 址 的 指针 。 
Mem_resize 扩 充 或 缩小 该 存储 块 ， 使 它 至 少 有 nbytes 的 存储 单元 ， 进 行 适当 的 边界 调整 ， 并 

一 个 指向 调整 过 的 存储 块 的 指针 。Mem_resize 为 了 改变 存储 块 的 大 小 ， 可 能 会 移动 该 存 
储 块 ， 因 此 逻辑 上 Mem_resize 等 价 于 分 配 一 个 新 的 存储 块 PA ptr 复制 一 部 分 或 所 有 的 数据 
到 新 的 存储 块 中 ， 并 释放 ptr 。 如 果 Mem_resize 不 能 分 配 一 个 新 的 存储 块 ， 那 么 它 将 会 产后 
异常 Mem_Failed file 和 line 为 异常 产生 的 位 置 。 宏 指令 RESIZE 将 ptr 的 指向 改 为 新 的 存储 块 ， 
这 也 是 Mem_resize 最 常用 的 方法 。 注 意 : RESIZE 也 对 ptr 进 行 了 多 次 的 求 值 。 

如 果 nbytes 超过 了 ptr 指 向 的 存储 块 的 大 小 ， 那 么 多余 的 字 节 将 不 被 初始 化 。 否 则 ， ‘ptr 
开始 的 nbytes 将 被 复制 到 新 的 存储 块 中 。 

如 果 将 空 的 ptr 传 给 Mem_resize ， 或 是 nbytes 为 非 正 数 ， 会 产生 可 检查 的 运行 期 错误 。 在 
校 验 实现 中 ，ptr 不 是 由 前 面 Mem_alloc、Mem _calloc 或 Mem_resize 的 调用 所 返回 ， 或 是 已 
经 传递 给 Mem_free 、Mem_resize 的 ptr 传 递 给 Mem_resize ， 这 是 一 个 可 检查 的 运行 期 错误 。 
而 在 产品 级 实现 中 ， 这 些 存 取 错 误 都 是 不 可 检查 的 运行 期 错误 。 

Menfbc MEER RTPUSHE A came aaa ax 
说 ， 程 序 既 可 以 使 用 标准 C 库 函数 中 的 分 配 函 数 ， 也 可 以 使 用 Mem 接 口中 的 分 配 丽 数 。 只 将 
那些 校 验 实现 所 管理 的 内 存单 元 在 取 错 误 视 为 可 检查 的 运行 期 错误 而 报告 。 在 任意 给 定 的 程 
序 中 ， 只 能 使 用 一 个 Mem 接 口 的 实现 。 





5.2 产品 级 实现 


在 产品 级 实现 中 ， 例 程 将 标准 函数 库 的 内 存 管理 函数 的 调用 封装 在 由 Mem 接 口 说 明 的 更 
安全 的 程序 包 中 : 
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(mem.c)s 

` #include <stdlib.h> 
#include <stddef.h> 
#include "assert.h" 
#include "except.h" 
#include "mem.h" 


(data 74) : 
(functions 74) 


例如 ，Mem_alloc 调 用 malloc， 并 在 malloc 返 回 空 指针 时 ， 产 生 异 常 Mem_Failed 


(functions 74)= 
void *Mem alloc(long nbytes, const char *file, int line){ 
void *ptr; 


assert(nbytes » 0); 
ptr « malloc(nbytes); 
if (ptr == NULL) 

(raise Mem Failed 74) 
return ptr; 


} 


(raise Mem_Fai led 74)= 
{ 
if (file == NULL) 
RAISE (Mem_Fai led); 
else 
Except. raise(&Mem Failed, file, line); 


} 


(data 74)= 
const Except_T Mem_Failed = { "Allocation Failed" }; 


MRENE MARY Be Bb HEMem, Failed S*?$, #8 AExcept_raise 4 444 ER Pr EE, 
该 位 置信 息 在 它 报告 未 处 理 的 异常 时 以 参数 传 给 Mem_alloc 。 例 如 : 


Uncaught exception Allocation Failed raised @parse.c:431 
aborting... 


类 似 地 ，Mem_calloc 函数 也 封装 了 对 calloc 的 调用 ， 


(functions 74)+s 
void *Mem calloc(long count, long nbytes, 
const char *file, int line) { 
void *ptr; 


assert(count » 0); 
assert(nbytes » 0); 
ptr = calloc(count, nbytes); 
if (ptr == NULL) 

(raise Mem Failed 74) 
return ptr; 
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当 count 或 nbytes 为 0 时 ，calloc 的 行为 在 实现 中 给 出 了 定义 。Mem 接 口 说 明了 在 这 些 情 况 下 
会 发 生 什 么 ， 这 也 是 它 的 优点 之 一 ， 并 可 以 帮助 避免 错误 的 发 生 。 
Mem, free {24X Ja FH ER free ; 


(functions 74)+= 
void Mem free(void *ptr, const char *file, int line) { 
if (ptr) 
free(ptr); 
} 


标准 的 库 函 数 允 许 空 指针 传递 给 函数 free ， 但 是 Mem_free 不 允许 ， 因 为 free 原 来 的 实现 就 不 
接收 空 指针 。 
Mem_resize 比 realloc 函数 的 说 明 简 单 得 多 ， 这 在 其 更 简单 的 实现 中 得 到 了 反映 : 


(functions 74) 
void *Mem resize(void *ptr, long nbytes, 
const char *file, int line) { 


assert(ptr); 
assert(nbytes » 0); 
ptr = realloc(ptr, nbytes); 
if (ptr == NULL) 
(raise Mem Failed 74) 
return ptr; 


) 
Mem resize 的 惟一 目的 就 是 改变 一 个 已 存在 的 存储 块 的 大 小 srealloc 也 可 以 完成 同样 的 功能 ， 
但 是 当 nbytes 为 0 时 ，realloc 同 时 释放 了 该 存储 块 ， 而 当 ptr 为 空 指针 时 ，realloc 也 同时 分 本 
了 某 个 存储 块 。 这 些 附加 的 功能 与 改变 菜 个 已 存在 的 存储 块 的 大 小 的 关系 并 不 大 ， 但 是 却 引 
入 了 错误 。 


5.3 校 验 实 现 


Mem 接 口 的 校 验 实现 所 导出 的 函数 可 以 捕获 在 本 章 的 一 开始 提 到 的 那 类 存 取 访问 错误 ， 
并 把 它们 作为 可 检查 的 运行 期 错误 来 报告 。 


(memchk.c)s 
finclude «stdlib.h» 
#include <string.h> 
#include "assert.h" 
finclude "except.h" 
#include "mem.h" 


(checking types 80) 
(checking macros 79) 
(data 74) 

(checking data 77) 
(checking functions 79) 
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如 果 Mem_alloc 、Mem_calloc 和 Mem_resize 从 来 不 会 两 次 返回 相同 的 地 址 ， 并 且 它 们 能 
记 住 它们 返回 的 所 有 地 址 ， 以 及 哪个 地 址 指向 已 分 配 的 内 存单 元 .那么 Mem_free 和 
Mem_resize 就 可 以 检查 到 存 取 访问 错误 。 理论 上 说 ， 这 些 函 数 都 保存 有 一 个 集合 ， 其 元 素 
都 是 二 元 组 (a, free) BR (a, allocated )， 其 中 w 是 由 分 配 操作 返回 的 地 址 。 值 free 说 明 地 
址 wx 不 再 指向 分 配 的 内 存单 元 ; 也 就 是 说 该 内 存单 元 已 经 明确 地 释放 了 ， 而 值 allocated 说 明 
地 址 cx 指向 已 分 配 的 存储 单元 。 

Mem_alloc 和 Mem_calloc 添 加 一 个 二 元 组 (ptr,allocated) 到 集合 S 中 ， 其 中 ptr 是 它们 的 返 
回 值 ,并且 它们 保证 在 添加 之 前 ，$ 中 不 会 出 现 (ptrallocated) 或 (ptr,free)。 当 ptr 为 空 ， 或 者 
(ptr,allocated) 在 9 中 时 ，Mem_free(ptr) 是 合法 的 。 如 果 ptr 不 为 空 ， 且 (ptr,allocated) 已 AES 
中 存在 ,那么 Mem_free 将 释放 ptr 指 向 的 内 存单 元 ， 并 将 集合 8 中 的 相应 元 素 项 改 为 (ptrfree) 。 
同样 ，Mem_resize(ptr,nbytes,.….) 也 只 有 在 (ptr,allocated) 已 经 在 S$ 中 存在 时 才 是 合法 的 。 如 果 
是 这 样 ， 那么 Mem_resize 调 用 Mem_alloc 分 配 一 个 新 的 存储 块 ， 将 原来 存储 块 中 的 内 容 复 制 
到 新 的 存储 块 中 ,并 调用 Mem_free 释 放 原 来 的 存储 单元 ; 这 些 调用 都 会 使 集合 8 产生 相应 的 
变化 。 

对 于 分 配 函 数 永远 不 会 两 次 返回 幅 同 的 值 的 情况 ， 可 以 采用 永 不 释放 任何 内 存单 元 来 实 
现 。 但 是 这 个 方法 浪费 了 空间 ， 一 个 更 好 的 做 法 是 : 永 不 释放 某 个 分 配 函数 先前 返回 的 地 址 
中 的 字 节 。$ 也 可 以 通过 保存 一 个 这 些 字 节 的 地 址 表 来 实现 。 

这 些 方案 可 以 通过 在 标准 库 函数 的 开头 写 一 个 内 存 分 配 程序 来 实现 。 这 个 分 配 程 序 保存 
含有 存储 块 描述 符 的 一 个 散 列 表 : 

(checking data 77)= 

static struct descriptor { 
struct descriptor *free; 
struct descriptor *link; 
const void *ptr; 
long size; 
const char *file; 


int line; 
) *htab[2048]; 


ptr 是 存储 块 的 地 址 ， 该 存储 块 是 在 下 面 描述 的 其 他 地 方 分 配 的 ;size 是 存储 块 的 大 小 。file 


和 line 是 存储 块 的 分 配 位 秆 一 一 其 源 位 壮 将 传 给 分 配 该 存储 块 的 函数 。 这 些 值 并 没有 被 使 用 ， 
但 是 它们 存储 在 描述 符 中 ， 以 便 调 试 程序 可 以 在 调试 阶段 把 它们 打印 出 来 。 
link 字 段 形成 一 个 在 htab 中 具有 相同 散 列 值 的 块 描述 符 链表 ， 而 htab 是 一 个 指向 这 些 描 述 
符 的 指针 数组 。 这 些 描 述 符 同样 也 形成 了 一 个 空闲 存储 块 的 链表 ; 该 链表 的 表 头 是 一 个 虚构 
的 描述 符 。 
(checking data 77)+= 
static struct descriptor freelist - { &freelist ); 


并 且 该 链表 趾 通过 找 述 符 中 的 free 字 段 连 起 来 的 。 该 链表 也 是 循环 的 ，freelist 是 链表 中 的 最 
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后 一 个 描述 符 ， 它 的 free 字 段 指向 第 一 个 描述 符 。 在 任何 时 候 ，htab 都 存 有 所 有 存储 块 的 描 
RF., 包括 空闲 的 和 已 分 配 的 , 空闲 的 存储 块 存 在 freelist 中 。 因 此 ， 如 果 存 储 块 是 已 分 配 的 ， 
那么 tree 字段 的 值 为 空 ， 如 果 存 储 块 是 空 亲 的， 那么 free 字 段 的 值 不 为 室 ， 并 且 用 htab 来 实现 
RAS. 图 5-1 显 示 了 某 个 时 间 点 这 些 数据 结构 的 状态 。 与 每 个 描述 符 结 构 相 关联 的 空间 出 现 
在 描述 符 结构 的 后 面 。 阴 影 的 空间 是 已 分 配 的 ;而 空白 的 空间 是 空闲 的 ， 从 link 字 段 连 出 来 
的 是 实 线 ， 而 虚线 连 着 的 是 空闲 链表 。 











freelist 








图 5-1 htab 和 freelist 的 结构 


给 定 一 个 地 址 ， 函 数 find 查 找 它 的 描述 符 ， 必 返回 一 个 指向 描述 符 的 指针 或 者 返回 一 个 


(checking functions 79)= 
static struct descriptor *find(const void *ptr) { 
struct descriptor *bp = htab[hash(ptr, htab)]; 


while (bp && bp-»ptr != ptr) 
bp = bp-»link; 
return bp; 


} 


(checking macros 79)= 


#define hash(p, t) ((C(unsigned long) (p)>>3) & \ 
(sizeof (t)/sizeof ((t)[0])-1)) 
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hash 宏 指令 以 位 模式 来 处 理 地 址 ， 右 移 三 位 ,然后 减 去 它 并 对 htab 大 小 取 模 。 对 于 编写 在 取 
访问 错误 在 运行 期 可 测 到 的 版 本 BüMem, free, find: SLE wT : 


(checking functions 79) 
void Mem free(void *ptr, const char *file, int line) { 
if (ptr) ( 
struct descriptor *bp; - 
(set bp if ptr is valid 79) 
bp->free = freelist.free; 
freelist.free = bp; 


} 
如 果 ptr 非 空 且 是 一 个 有 效 的 地 址 ， 那 么 存储 块 是 通过 把 它 添加 到 空闲 的 列表 中 来 完成 存 
储 空间 的 释放 ， 并 且 可 以 通过 以 后 的 Mem_alloc 调 用 来 重新 使 用 。 当 指针 指向 某 个 已 分 配 的 
存储 块 时 称 该 指针 是 有 效 的 : 


(set bp if ptr is valid 79)= 
if ((Cunsigned long)ptr)X(sizeof (union align) !=0 
|| (bp = find(ptr)) == NULL || bp->free) 
Except_raise(&Assert_Failed, file, line); 


其 中 的 测试 语句 ((unsigned long)ptr)%(sizeof (union align))!=0 避 免 了 对 无 效 地 址 调用 find 函 
数 ， 这 些 地 址 不 是 最 严格 的 地 址 边界 的 倍数 ， 因 此 不 可 能 是 有 效 的 存储 块 指针 。 

就 像 下 面 要 说 的 那样 ，Mem_alloc 返 回 的 指针 总 是 按 某 个 地 址 的 边界 调整 过 的 ， 该 地 址 
是 以 下 共用 体 大 小 的 倍数 : 


(checking types 80)= 
union align { 
int i; 
long 1; 
long *lp; 
void *p; 
void (*fp)(void); 
float f; 
double d; 
long double 1d; 
}; 
这 种 边界 调整 保证 任何 类 型 的 数据 都 可 以 存储 在 由 Mem_alloc 返 回 的 存储 块 中 。 如 果 传 递 给 
Mem_free 的 ptr 没 有 按 这 个 边界 调整 ， 那 么 它 可 能 不 在 htab 中 ， 因 此 可 能 是 无 效 的 。 
Mem_resize 通 过 同样 的 检查 来 捕获 存 取 错误 ， 然 后 调用 Mem_free 、 Mem. alloc LJ A Pg gg 
数 memcpy: 


(checking functions 79)+= . 
void *Mem.resize(void *ptr, long nbytes, 
const char *file, int line) ( 
struct descriptor *bp; 
void *newptr; 
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assert(ptr); 
assert(nbytes » 0); 
(set bp if ptr is valid 79) 
newptr = Mem alloc(nbytes, file, line); 
memcpy(newptr, ptr, 

nbytes « bp->size ? nbytes : bp->size); 
Mem free(ptr, file, Tine); 
return newptr; 


} 
同样 ，Mem_calloc 也 可 以 通过 调用 Mem_alloc 和 库 函 数 memset 来 实现 ， 


(checking functions 79)+= 
void *Mem calloc(long count, long nbytes, 
const char *file, int line) ( 
void *ptr; 


assert(count » 0); 
assert(nbytes » 0); 

ptr = Mem_alloc(count*nbytes, file, line); 
memset(ptr, 'NO', count*nbytes); 

return ptr; 


} 
TH TR BUE AE} BCH RF AR DI X Mem  alloctj (UPS f, 48 BEA —Ue SPE Fal nt 92 CT 
个 任务 ， 一 种 办 法 就 是 分 配 一 个 足够 大 的 存储 块 ， 既 可 以 存储 描述 符 也 可 以 存储 Mem_alloc 


调用 所 需 的 存储 空间 。 这 种 方法 有 两 个 缺点 : 首先 ， 它 增加 了 难度 ， 需要 把 空闲 的 内 存单 元 


块 划分 成 满足 要 求 的 几 个 更 小 的 块 ， 而 每 个 需求 都 必须 有 它 自 己 的 描述 符 ; 其 次 ， 它 使 得 描 
述 符 很 容易 因 借助 指针 或 指向 分 配 的 痛 储 块 以 外 的 索引 的 写 操作 而 被 破坏 。 


分 配 描述 符 分 别 将 它们 的 分 配 从 Mem_alloc 中 分 离 出 来 ， 这 样 减少 了 它们 被 破坏 的 机 会 ， 
但 是 不 能 消除 这 种 可 能 性 。dalloc 分 配 、 初 始 化 并 返回 一 个 描述 符 ， 将 其 从 出 malloc 得 到 的 


512 个 描述 符 块 中 分 离 出 来 : 


(checking functions 794 
static struct descriptor *dalloc(void *btr, long size, 
const char *file, int line) { 
Static struct descriptor *avail; 
static int nleft; 


if (nleft <= 0) { 
{allocate descriptors 82) 
nleft = NDESCRIPTORS; 


} 

avail->ptr = ptr; 
avail->size = size: 
avail->file = file; 
avail->line = line; 


avail->free avail->link = NULL; 


nieft--; 
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return avai 1l++; 


} 


(checking macros 79)+= 
#define NDESCRIPTORS 512 


调用 malloc 可 能 会 返回 一 个 空 指针 ， 而 aalloc 又 把 这 个 空 指针 传递 给 tailoc 的 调用 者 。 


(allocate descriptors 82) 
avail = malloc(NDESCRIPTORS*sizeof (*avail)); 
if (avail == NULL) 
return NULL; 


就 像 以 下 要 说 明 的 ， 当 dalloc 返 回 一 个 空 指针 时 ，Mem_alloc 会 产生 Mem_Failed 异 常 。 

Mem_alloc 对 存储 块 的 分 配 使 用 的 是 众多 内 存 分 配 算法 中 的 first-fit 算 法 。 它 搜索 freelist 
链表 ， 找 到 第 一 个 能 够 满足 分 配 要 求 的 存储 块 ， 然 后 从 该 存储 块 中 划分 出 所 需要 的 存储 块 。 
如 果 freelist 链 表 中 没有 合适 的 存储 块 ，Mem_alloc 将 调用 malloc 分 配 一 个 大 于 nbytes 的 内 存 
块 ， 并 把 它 加 到 空闲 的 链表 中 ， 然 后 再 次 查找 freelist 列 表 。 因 为 新 的 内 存 块 大 于 nbytes ,在 
第 二 次 查找 的 时 候 ， 它 就 作为 满足 分 配 要 求 的 存储 块 进行 分 配 。 代 码 如 下 : 


(checking functions 79)+= 
void *Mem alloc(long nbytes, const char *file, int line){ 
struct descriptor *bp; 
void *ptr; 


assert(nbytes » 0); 
(round nbytes up to an alignment boundary 83) 
for (bp = freelist.free; bp; bp = bp->free) { 
if (bp->size > nbytes) { 
(use the end of the block at bp->ptr 83) 
} 
if (bp == &freelist) { 


struct descriptor *newptr; 
(newptr e a block of size NALLOC + nbytes 84) 
newptr->free = freelist.free; 
freelist.free = newptr; 
} 

} 

assert(0); 

return NULL; 

} 


Mem_alloc 先 把 nbytes 向 上 取 整 ， 使 得 它 返 回 的 每 个 指针 都 是 共用 体 align 大 小 的 倍数 : 


(round nbytes up to an alignment boundary 83)= 
nbytes = ((nbytes + sizeof (union align) - 1)/ 
Csizeof (union align)))*(sizeof (union align)); 


freelist,free 指 向 空闲 存储 块 链表 的 起 始 地 址 ， 也 是 循环 开始 的 地 方 。 第 一 个 大 小 超过 
nbytes 的 存储 块 被 用 来 进行 分 配 。 该 空闲 存储 块 底部 的 nbytes 个 字 节 被 分 割 出 来 ， 分 割 出 来 
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的 存储 块 的 描述 符 被 创建 、 初 始 化 并 添加 到 htab 中 后 ， 返 回 该 存储 块 的 地 址 。 


(use the end of the block at bp->ptr 83)= 

bp->size -= nbytes; 

ptr = (char *)bp->ptr + bp->size; 

if ((bp = dalloc(ptr, nbytes, file, line)) !- NULL) { 
unsigned h = hash(ptr, htab); 
bp-»link = htab[h]; 
htab[h] = bp; 
return ptr; 

} else 
(raise Mem. Failed 74) 


图 5-2 说 明了 该 代码 块 的 效果 : 左边 是 一 个 描述 符 ， 它 指向 菜 个 被 划分 之 前 的 空闲 袍 
间 ; 右边 已 分 配 的 空间 用 阴影 表示 ， 并 有 一 个 新 的 描述 符 指 向 它 。 注 意 : 新 描述 符 的 空 闲 链 





图 5-2 分 配 一 空闲 块 的 末端 


测试 语句 bp->size > nbytes 保 证 bp ->ptr 的 值 从 不 会 被 重复 使 用 。 大 的 空闲 存储 块 被 划分 成 
小 的 存储 块 分 配给 小 的 需求 ， 直 到 存储 块 的 大 小 减 小 到 sizeof(union align) 个 字 节 ， 在 bp_>size 
小 于 nbytes 的 时 候 就 不 再 分 配 了 上 。 等 个 在 储 块 的 前 sizeof(union align) 个 字 节 是 从 不 进行 分 
配 的 。 

如 果 bp 已 到 达 freelist ( 即 已 搜索 到 链表 的 最 后 一 个 存储 块 )， 而 链表 中 没有 一 个 存储 块 
的 大 小 超过 nbytes ， 在 这 种 情况 下 ， 一 个 新 的 大 小 为 

(checking macros 79)+= 

fdefine NALLOC 4096 

加 上 nbytes 个 字 节 的 存储 块 ， 被 添加 到 空闲 存储 块 链表 的 表 头 ; 在 下 一 次 循环 的 迭代 中 ， È 
将 会 被 访问 ， 并 用 来 进行 所 需要 的 分 配 。 这 个 新 的 存储 块 也 有 一 个 描述 符 ， 就 好 像 它 先前 已 
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被 分 配 和 释放 过 一 样 : 


(newptr «— a block of size NALLOC + nbytes 84} . 
if ((ptr = malloc(nbytes + NALLOC)) == NULL 
{| Cnewptr = dalloc(ptr, nbytes + NALLOC, 
FILE. , . LINE. )) == NULL) 
(raise Mem Failed 74) 


参考 书目 浅 析 


Mem 接 口 的 目的 之 一 就 是 改进 C 的 分 配 函 数 接口 。Maguire(1993) 对 标准 C 分 配 函 数 进 行 
了 评价 ， 并 描述 了 一 个 类 似 的 函数 包 。 

内 存 分 配 错误 在 C 程 序 中 是 很 普遍 的 ， 以 至 有 专门 的 公司 致力 于 开发 并 出 售 这 样 的 工具 ， 
帮助 诊断 和 修复 这 类 的 错误 。 其 中 最 好 的 工具 是 Purify(Hastings 和 Joyce 1992) ， 它 能 检查 出 
几乎 所 有 的 存 取 类 错误 ， 包 括 在 5.3 节 中 给 出 的 存 取 错误 。Purify 对 每 个 调用 和 存储 指令 都 进 
行 了 检查 ; 由 于 它 是 通过 编辑 目标 代码 来 实现 这 样 的 检查 的 ， 因此 它 在 即使 没有 源 代码 的 情 
况 下 也 可 以 使 用 , 例如 在 私有 库 中 使 用 它 。 利 用 源 代码 来 捕获 存 取 错误 是 另 一 种 实现 方法 。 
例如 ，Austin、Breach 和 Sohi(1994) 描 述 了 一 个 系统 ， 该 系统 中 的 “安全 ”指针 就 带 有 足够 
的 信息 来 检查 大 量 的 存 取 错误 。LCLint(Evans 1996) 具 有 像 PC-Lint- -类 工具 的 许多 特征 ， 可 
以 在 编译 阶段 检查 大 量 潜在 的 内 存 分 配 错误 。 

Knuth(1973a) 研 究 了 所 有 重要 的 内 存 分 配 算法 ， 并 对 为 什么 first fit 算 法 通常 比 其 他 算法 
(例如 查找 大 小 最 接近 所 要 求 的 存储 块 的 best fit 算 法 ) 更 好 做 了 解释 。 在 Mem_alloc 中 使 用 
的 first-fit 算 法 与 8.7 节 中 描述 的 Kernighan 和 Ritchie(1988) 的 算法 很 类 似 。 

大 多 数 内 存 管理 算法 都 有 许多 的 变种 ， 通 常 都 是 为 某 个 特定 的 应 用 或 分 配 模式 设计 的 ， 
以 改善 其 性 能 。Quick fit(Weinstock RIWulf 1988) 算 法 是 使 用 最 广泛 的 一 种 算法 。 通 过 观察 ， 
发 现 许多 应 用 中 分 配 的 存储 块 只 有 几 种 不 同 的 大 小 ，Quick fit 算 法 正 是 利用 了 这 一 点 。 它 保 
存 有 N 个 空闲 的 存储 块 链表 ， 每 个 对 应 的 是 使 用 频率 最 高 的 W 种 需求 的 大 小 。 分 配 其 中 一 种 
大 小 的 存储 块 只 需 简单 的 从 相应 的 链表 中 取出 一 块 即 可 ; 释放 其 中 一 种 大 小 的 存储 块 ， 把 它 
添加 到 相应 的 链表 中 即 可 。 当 链表 为 空 或 所 要 求 的 大 小 不 在 这 N 个 当中 时 ， 就 使 用 其 他 的 方 
法 ， 例 如 first fit 等 。 

Grunwald 和 Zorn (1993 ) 描述 了 一 种 系统 ， 该 系统 产生 了 适用 于 某 个 特定 应 用 的 malloc 
和 free 圾 数 的 实现 。 他 们 首先 用 不 同 版 本 的 malloc 和 free 运 行 该 应 用 程序 ， 收 集 关 于 存储 块 大 
小 、 分 配 与 释放 频率 等 等 的 统计 信息 ; 然后 他 们 把 这 些 数据 输入 某 个 程序 ， 该 程序 产生 为 该 
应 用 定制 的 malloc 和 free 函 数 的 源 代码 。 这 些 版 本 的 malloc 和 free 函 数 通 常 对 一 小 部 分 、 专用 
于 某 种 应 用 的 存储 块 大 小 的 集合 使 用 快速 拟 合 。 


练习 


5.1 Maguire(1993) 提 倡 将 未 初始 化 的 内 存单 元 用 一 些 特殊 的 位 模式 来 初始 化 ， 这 样 可 
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5.2 


5.3 


5.4 


5.5 





以 帮助 诊 BEERS ED AE ETE 一 个 好 的 位 模式 的 特征 是 什 
4? 提出 一 个 合适 的 位 模式 ， 并 改变 Mem_alloc 的 校 验 实 现 来 实现 该 初始 化 方法 。 
RUE HERR Irom UR TEBHI VERI GR RUS-. 

一 旦 在 代 础 块 <use the end of the block at bp ->ptr 83> 中 ， 某 个 空闲 存储 块 的 大 小 
削减 到 sizeof(union align) 个 字 节 ， 那 么 它 可 能 永远 也 不 会 满足 任何 需求 ， 但 是 它 仍 
然 在 空闲 的 存储 块 链表 中 。 修 改 该 程序 的 代码 ， 消 除 这 种 存储 块 。 你 是 否 能 找到 一 
个 这 样 的 应 用 ， 使 得 通过 对 它 的 度量 可 以 察觉 到 这 种 改进 的 效果 。 

大 部 分 first fit ASCH, 都 和 8.7 节 中 给 出 的 Kernighan 和 Ritchie ( 1988 ) 的 实现 一 样 ， 
将 相 邻 的 空闲 存储 块 合并 形成 一 个 更 大 的 空闲 存储 块 Mem, alloc 的 校 验 实 现 并 没 
有 合并 相 邻 的 空闲 存储 块 ， 因 为 它 不 会 返回 相同 的 地 址 两 次 。 为 Mem_alloc 设 计 一 
个 算法 ， 使 得 该 算法 可 以 合并 相 邻 的 空闲 存储 块 ， 但 又 不 会 返回 相同 的 地 址 两 次 。 
一 些 程序 员 可 能 认为 ， 在 Mem_free 中 产生 Assert_Failure 异 常 ， 似 乎 对 发 生存 取 错 
误 的 处 理 过 于 严厉 ， 因 为 如 果 不 正 确 的 调用 只 是 被 记录 然后 将 其 忽略 ， 那 么 执行 是 
可 以 继续 的 。 请 实现 ; 

extern void Mem log(FILE *log); 

如 果 传 递 给 Mem_log 的 文件 指针 非 空 ， 那 么 它 通 过 往 log 中 写 信 息 ， 而 不 是 产生 
Assert_Failure 异 常 来 通知 发 生 了 存 取 错 误 。 这 些 信息 可 以 记录 不 正确 调用 及 其 分 
配 的 位 置 。 例 如 ， 当 Mem_free 被 调用 ， 而 参数 指针 指向 的 是 一 个 已 经 被 释放 了 的 
存储 块 时 ， 它 有 可 能 给 出 的 信息 为 : 


** freeing free memory 
Mem free(0x6418) called from parse.c:461 
This block is 48 bytes long and was allocated from sym.c:123 


类 似 地 ， 当 Mem_resize 被 调用 ， 而 参数 指针 指向 的 是 一 个 无 效 指 针 时 ， 它 有 可 能 
给 出 的 信息 为 : 


** resizing unallocated memory 
Mem resize(Oxf7fff930,640) called from types.c:1101 


允许 Mem_log(NULL) 关 掉 事件 记录 并 恢复 存 取 错误 的 断言 失败 。 

校 验 实现 拥有 人 它 报告 潜在 内 存 泄漏 时 所 需要 的 所 有 信息 。 就 像 在 本 章 开始 部 分 提 到 
的 一 样 ， 一 个 内 存 汇 泌 就 是 一 个 已 分 配 的 存储 块 不 被 任何 指针 引用 ， 因 此 就 不 可 能 
被 释放 。 漏 洞 会 导致 程序 最 终 耗 尽 内 存 。 它 们 对 短期 运行 的 程序 来 说 可 能 并 不 算是 
问题 ， 但 是 | 例如 用 户 接口 和 服务 器 程序 等 等 ， 就 是 一 个 严重 的 
问题 了 。 请 实 


extern void Mem leak(apply(void *ptr, long size, 
const char *file, int line, void *c1), void *cl); 


该 实现 调用 出 apply 所 指向 的 函数 来 分 配 存储 块 ; ptr 是 存储 块 的 位 置 size 是 它 分 
配 的 大 小 ，file 和 line 是 调用 分 配 的 位 置 。 客 户 调用 程序 可 以 将 应 用 程序 专用 的 指针 
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cl 传递 给 Mem_leak ， 而 这 个 指针 也 作为 apply 的 最 后 一 个 参数 传递 给 apply 。 
Mem_leak 并 不 知道 c1 是 干什么 用 的 ， 但 是 可 能 apply 知 道 。apply 和 cl 一 起 被 称 做 一 
DAE: 它们 指定 了 一 个 操作 和 一 些 该 操作 的 上 下 文 专用 的 数据 。 例 如 : 

void inuse(void *ptr, long size, 


const char *file, int line, void *c1) { 
FILE *log = cl; 





fprintf(log, "** memory in use at %p\n", ptr); 
fprintf(log, "This block is Xld bytes long " 
"and was allocated from %s:%d\n", size, 
file, line); 
} 
可 能 将 以 下 的 信息 


** memory in use at 0x13428 
This block is 32 bytes long and was allocated from gen.c:23 


写 人 前 一 个 练习 提 到 的 日 志文 件 中 。inuse 的 调用 是 通过 把 它 以 及 日 志文 件 的 文件 
指针 一 起 作为 参数 传 给 Mem_leak 来 实现 的 : 


Mem_leak(inuse, 109); 


第 6 章 ”进一步 内 存 管 理 


大 多 数 malloc 和 free 的 实现 ， 使 用 的 内 存 管理 算法 都 必须 基于 对 象 的 大 小 。 在 前 面 一 章 
中 所 使 用 的 first fit 算 法 就 是 一 个 例子 。 在 一 些 应 用 中 ， 内 存单 元 的 释放 都 是 成 组 的 且 都 发 生 
在 同一 时 间 。 岁 形 用 户 接口 就 是 这 样 的 例子 。 滚 动 条 、 按 钮 等 对 象 的 空间 是 在 窗口 被 创建 的 
时 候 分 配 的 ， 当 窗口 被 销毁 (destroy ) 时 这 些 空 间 被 释放 。 编 译 器 是 另外 一 个 例子 。 例 如 
lcc 在 编译 某 个 函数 时 进行 内 存单 元 的 分 配 ， 当 它 结束 该 函数 的 编译 时 一 次 性 释放 分 配 的 所 
有 内 存单 元 。 | 

基于 对 象 生存 期 的 内 存 管 理 算法 通常 更 适合 于 这 类 应 用 。 基 于 堆栈 的 分 配 就 是 这 类 分 配 
算法 的 一 个 例子 ， 但 是 只 有 在 对 象 的 生存 期 是 拒 套 的 时 候 才 可 以 使 用 ， 而 实际 情况 常常 并 非 
如 此 。 

本 前 讲 述 了 一 个 内 存 管 理 接口 以 及 它 的 实现 ， 它 使 用 的 是 基于 实 存 块 (arena ) 的 算法 ， 
RIE MSE PS SHER A PA HE, PERN OK ROE RST 。 如 果 调 用 
malloc， 要 求 后 面 必须 调用 free 。 就 像 前 面 章节 中 讨论 的 一 样 ， 实 际 上 很 容易 忘记 调用 free , 
更 糟糕 的 是 释放 某 个 已 经 被 释放 过 的 对 象 ， 或 是 释放 某 个 不 应 该 释放 的 对 象 。 

使 用 基于 实 存 块 的 分 配 程序 ， 不 一 定 每 次 调用 malloc 后 就 一 定 都 要 对 应 调用 free; 对 在 
实 存 块 空间 内 的 所 有 内 存单 元 的 释放 ， 只 需 在 最 后 用 一 个 free 释 放 调用 就 可 以 了 。 使 用 基于 
实 存 块 的 分 配 程序 ， 分 配 和 释放 都 更 有 效 ， 也 没有 存储 漏洞 。 而 该 方案 一 个 最 重要 的 好 处 是 
它 简化 了 代码 。 合 用 算法 (Applicative algorithm ) 分 配 新 的 数据 结构 而 不 是 改变 已 存在 的 
某 个 数据 结构 。 基 于 场 的 分 配 程序 鼓励 使 用 简单 的 合用 算法 代替 那些 更 复杂 的 算法 ， 这 些 算 
法 可 能 会 更 有 效 地 利用 空间 ,但 是 必须 记 住 什么 时 候 调用 free。 

基于 实 存 块 的 方案 有 两 个 缺点 : 可 能 会 使 用 更 多 的 内 存单 元 ， 并且 可 能 会 产生 悬挂 指针 
如 果 某 个 对 象 分 配 到 错误 的 实 存 块 中 ， 而 这 个 实 存 块 在 程序 还 没 处 理 完 对 象 就 被 释放 了 ， 那 
么 程序 将 可 能 引用 未 分 配 的 存储 单元 或 被 其 他 可 能 无 关 的 实 存 块 重复 使 用 的 内 存单 元 。 同 样 
也 有 可 能 将 对 象 分 配 到 某 个 实 存 块 空间 ， 而 没有 尽早 地 释放 ， 这 样 就 会 形成 一 个 存储 漏洞 。 
在 实际 应 用 中 ， 实 存 块 的 管理 是 很 容易 的 ， 这 些 问 题 都 很 少 发 生 。 








6.1 接口 


Arena 接 口 指定 了 两 个 异常 以 及 管理 实 存 块 和 在 实 存 块 中 进行 内 存 分 配 的 函数 : 


(arena.h)= 
#ifndef ARENA INCLUDED 
#define ARENA INCLUDED 
#include "except.h" 
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#define T Arena. T 
typedef struct T *T; 


extern const Except T Arena, NewFailed; 
extern const Except T Arena, Failed; 


(exported functions 91) 


#undef T 
#endif 
实 存 块 的 创建 和 销毁 是 通过 下 面 的 语句 完成 的 : 


(exported functions 91)= 
extern T Arena new (void); 
extern void Arena dispose(T *ap); 


Arena_new 创 建 一 个 新 的 实 存 块 ， 并 返回 一 个 指向 实 存 块 的 隐 式 指针 。 这 些 指 针 然 后 被 传递 给 
其 他 实 存 块 的 函数 。 如 果 Arena. new 不 能 分 配 实 存 块 空间 ， 它 将 产生 异常 Arena_NewFailed， 
Arena_dispose 释 放 与 某 个 实 存 块 *ap 相 关 的 内 存单 元 ， 然 后 销毁 实 存 块 本 身 ， 并 清除 *ap。 如 
果 传 递 某 个 空 的 ap 或 *ap 给 Arena_dispose ， 会 发 生 一 个 可 检查 的 运行 期 错误 。 
分 配 函 数 Arena_alloc 和 Arena_calloc 与 Mem 接 口中 同名 字 的 函数 类 似 ， 惟 一 的 不 同 是 它 
们 是 在 实 存 块 空间 中 进行 分 配 的 。 
(exported functions 91)+= 
extern void *Arena_alloc (T arena, long nbytes, 
const char *file, int line); 
extern void *Arena calloc(T arena, long count, 


long nbytes, const char *file, int line); 
extern void Arena free (T arena); 


Arena_alloc 在 arena 中 分 配 一 个 大 小 至 少 为 nbytes 的 存储 块 ， 并 返回 一 个 指向 第 一 个 字 节 的 指 
针 。 人 存储 块 是 按 某 个 地 址 边界 对 齐 的 ， 该 地 址 边界 即使 对 最 严格 的 对 齐 所 要 求 的 数据 也 是 合 
适 的 。 存 储 块 中 的 内 容 未 初始 化 。Arena_calloc 在 arena 分 配 一 个 存储 块 ， 其 大 小 足够 存放 
count 个 元 素 的 数组 ， 每 个 元 素 的 大 小 为 nbytes ， 并 返回 一 个 指向 第 一 个 字 节 的 指针 。 该 存储 
块 和 Arena_alloc 中 一 样 ， 会 调整 地 址 边界 ， 并 初始 化 为 0。 如 果 count 或 nbytes 为 非 正 数 ， 会 
产生 一 个 可 检查 的 运行 期 错误 。 

Arena_alloc 和 Arena_calloc 中 的 最 后 两 个 参数 是 调用 所 处 文件 的 文件 名 和 行 号 。 如 果 
Arena_alloc 和 Arena_calloc 不 能 分 配 所 要 求 的 内 存单 元 ， 那 么 它们 会 产生 Arena_Failed 异 常 ， 
并 将 file 和 line 作 为 参数 传递 给 Except_raise， 使 得 异常 可 以 报告 调用 的 位 置 。 如 果 file 是 个 空 
指针 ， 那 么 它们 在 异常 Arena_Failed 的 实现 中 给 出 错误 源 的 位 置 。 

Arena_free 释 放 arena 中 所 有 的 存储 单元 ， 即 释放 自 创 建 arena 或 上 一 次 对 其 调用 
Arena_free 开 始 ， 在 arena 中 分 配 的 所 有 单元 。 

在 该 接口 中 传递 空 的 T 到 任何 例 程 都 是 可 检查 的 运行 期 错误 。 该 接口 中 的 例 程 可 以 和 
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Mem 接 口中 的 例 程 以 及 其 他 基于 malloc 和 free 的 分 配 程序 一 起 使 用 。 
6.2 实现 


(arena.cj= 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "except.h" 
#include "arena.h" 
#define T Arena_T 


const Except_T Arena_NewFailed = 
{ "Arena Creation Failed" }; 

const Except_T Arena_Failed = 
{ "Arena Allocation Failed" }; 


(macros 98) 


{types 92) 
(data 96) 
(functions 93) 


描述 的 是 这 样 一 个 内 存 存储 块 ( chunk of memory ): 


(types 92)= 
struct T i 
T prev; 
char *avail; 
Char *limit; 
H 
prevy 字 段 指向 该 在 储 块 的 头 ， 该 存储 块 以 如 下 的 实 存 块 结构 开始 ; limit 字 段 指向 紧 靠 存储 块 
末尾 的 下 一 个 内 存单 元 ; avail 字 段 指 向 该 存储 块 的 第 一 个 空闲 位 置 ， 从 avail 青 到 limit 的 空间 
是 可 以 分 配 的 。 
当 N 不 超过 limit-avail 时 ,为 了 分 配 N 个 字 节 的 存储 块 ， avail 将 增加 N , 并 返回 它 之 前 的 值 。 
如 果 NN 超 过 limit-avail ， 那 么 调用 malloc 分 配 一 个 新 的 存储 块 ，*arena 的 当前 值 保 存在 新 存储 
块 的 头 部 。arena 字 段 被 初始 化 了 ， 这 样 就 可 以 描述 这 个 新 的 存储 岂 ， 然 后 继续 进行 分 配 . 
因此 实 存 块 结构 实际 是 一 个 存储 块 链表 ， 该 链表 通过 每 个 存储 块头 部 的 实 存 块 结构 副本 
中 的 prev 字 段 连接 起 来 的 。 图 6-1 显 示 了 某 个 实 存 块 的 状态 ， 其 中 已 经 分 配 了 三 个 存储 块 ; 阴 
影 部 分 是 已 分 配 的 空间 ; 存储 块 的 大 小 不 等 ， 如 果 分 配 的 空间 没有 完全 填 满 存储 块 ， 那 么 存 
储 块 的 尾部 也 可 能 是 未 分 配 的 空间 。 
Arena_new 分 配 并 返回 一 个 实 存 块 结构 ， 它 的 字段 被 设 为 空 指 针 ， 表 明 是 个 空 实 存 块 ; 


(functions 93)= 
T Arena new(void) { 
T arena = malloc(sizeof (*arena));. 
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68 
if (arena == NULL) 
RAISE(Arena NewFailed); 

arena-»prev - NULL; 

arena->limit = arena->avail = NULL; 

return arena; 

} 
prev 
avail 
limit 





图 6-1 有 三 个 存储 块 的 实 存 块 


Arena. dispose ji] H] Arena. free Ec SC ££ RY BYTE HAIR 5 然后 它 释放 实 存 块 结构 本 身 并 清除 指 
向 实在 块 的 指针 


(functions 93)+= 
void Arena dispose(T *ap) ( 
assert(ap && *ap); 
Arena free(*ap); 
free(*ap); 
*ap = NULL; 
} 


Arena 用 malloc 和 free 代 替 Mem_alloc 和 Mem_free ， 央 此 它 是 独立 于 其 他 分 配 程序 的 。 
大 多 数 分 配 程序 都 是 很 直接 的 ; 它们 将 所 需求 的 空间 大 小 向 上 调整 为 合适 的 地 址 边界 ， 
将 avail 指 针 加 上 已 取 整 的 需求 空间 大 小 ， 并 返回 原来 的 值 。 
(functions 93)+= 
void *Arena alloc(T arena, long nbytes, 
const char *file, int line) ( 


assert(arena); 
assert(nbytes » 0); 
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(round nbytes up to an alignment boundary 95) 

while (nbytes > arena->limit - arena-»avail) { 
(get a new chunk 95) 

} 

arena->avail += nbytes; 

return arena->avail - nbytes; 


} 
就 像 Mem 接 口中 的 校 验 实现 中 一 样 ， 共 用 体 


(types 92)+= 
union align { 
int i; 
long 1; 
long *1p; 
void *p; 
void (*fp)(void); 
float f; 
double d; 
long double 1d; 
um 


的 大 小 给 出 了 主机 上 最 小 的 对 齐 边 界 调 整 。 它 的 字段 都 是 最 有 可 能 有 最 严格 地 址 边界 调整 要 
求 的 字段 ， 并 且 用 它 来 对 nbytes 向 上 取 整 : 


(round nbytes up to an alignment boundary 95)= 
nbytes = ((nbytes + sizeof (union align) - 1)/ 
(sizeof (union align)))*(sizeof (union align)); 


对 大 多 数 调用 来 说 ，nbytes 总 是 小 于 arena ->limit-arena->avail 的 ;， 也 就 是 说 存储 块 至 少 
还 有 nbytes 的 空闲 空间 ， 因 此 上 面 Arena_alloc 函数 内 的 while 循 环 的 主体 总 是 不 执行 的 。 如 果 
请 求 不 能 在 当前 存储 块 中 得 到 满足 ， 部 么 就 必须 分 配 一 个 新 的 存储 块 。 这 造成 了 当前 存储 块 
尾部 空闲 空间 的 浪费 ， 如 图 6-1 中 链表 上 的 第 二 个 存储 块 。 

分 配 了 一 个 新 的 存储 块 后 ，*arena 的 当前 值 保存 在 新 的 存储 块 的 开头 ， 并 且 arena 的 字段 
已 被 初始 化 ， 使 得 分 配 可 以 继续 : 


(get a new chunk 95) 
T ptr; 
char *limit; 
(ptr «— a new chunk 96) 
*ptr - *arena; 
arena->avail = (char *)((union header *)ptr + 1); 
arena-»limit = limit; 
arena->prev = ptr; 


(types 92)+= 
union header { 
struct T b; 
union align a; 
}; 





结构 赋值 *ptr = *arena 把 *arena 保 存在 新 的 存储 块 的 开始 处 。 共 用 体 header 保 证 arena->avail 
的 值 是 在 这 个 新 存储 块 中 第 一 次 分 配 时 进行 过 适当 边界 调整 的 地 址 。 

4i FBias, Arena-free E574: Bfreechunksi) s: B c ERE f£ ILA s 闲 的 存储 块 ， 以 
减少 调用 malloc 的 次 数 。 这 个 链表 是 通过 存储 块 中 初始 实 存 块 结构 的 prev 字 段 链接 起 来 的 ， 
而 这 些 实 存 块 结构 中 的 imit 字 段 指向 紧邻 存储 块 末 尾 的 下 一 地 址 。nfree 是 链表 中 存储 块 的 数 
H. Arena_alloc MŽ ## # 中 或 通过 调用 malloc 得 到 一 个 空闲 的 存储 块 ， 并 对 局 部 变量 limit 赋 
值 以 在 上 面 的 <get a new chunk 95> 中 使 用 : 


(data 96)+= 
static T freechunks; 
static int nfree; 


(ptr + a new chunk 96 

if (Cptr = freechunks) != NULL) { 
freechunks = freechunks-»prev; 
nfree--; 
limit = ptr-»limit; 

} else { 
tong m = sizeof (union header) + nbytes + 10*1024; 
ptr = malloc(m); 
if (ptr == NULL) 

{raise Arena_Fai led 96) 

limit = (char *)ptr + m; 


} 


RNR 45204 Rio — BREE AE, UR AG BE AO TEA LAE K, 可 以 保存 一 个 实在 块 结构 加 上 
nbytes 空 间 ， 并 还 留 有 10K 字 节 的 可 用 空间 。 如 果 malloc 返 HR, MAAR, FFA 
Arena_alloc 4% fih Az — “SArena_Failed 2: 

(raise Arena_Fai led 96)= 


1 
if (file == NULL) 


RAISE(Arena Failed); 
else 


Except raise(&Arena Failed, file, line); 


} 

— Harena fii (i — Sir TERE, Arena, allocrl iijwhile (if R2: 21x HEY AME, È 仍然 有 
可 能 失败 : 如 果 新 的 存储 块 来 自 freechunks， 它 就 可 能 太 小 以 至 于 不 能 满足 需求 ， 这 就 是 为 
什么 在 这 里 用 while 循 坏 来 代替 if 诸 句 的 原因 。 

Arena_calloc 仪 仪 调 用 Arena_alloc Bp uf. 


(functions 93)+= 


void *Arena_calloc(T arena, long count, long nbytes, 
const char *file, int line) { 
void *ptr; 
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assert(count » 0); 

ptr = Arena alloc(arena, count*nbytes, file, line); 
memset(ptr, 'NO', count*nbytes); 

return ptr; 


} 
实 存 块 的 释放 时 ， 把 它 的 存储 块 添加 到 空闲 的 存储 块 链表 中 即 可 ， 辣 时 让 遍历 链表 的 时 
候 ， 也 把 *arena 恢 复 到 初始 状态 : 


(functions 93)+= 
void Arena free(T arena) { 
assert(arena); 
while (arena-»prev) { 
struct T tmp = *arena-»prev; 
(free the chunk described by arena 98) 
*arena = tmp; 


} 
assert(arena-»limit == NULL); 
assert(arena-»avail == NULL); 


} 


对 tmp 结 构 赋 值 ， 把 出 arena->prev 指 向 的 实 存 块 结构 中 的 所 有 字段 复制 到 tmp 中 。 这 名 赋值 
语句 以 及 赋值 语句 *arena = tmp 相 当 于 出 存储 块 链表 形成 的 实 存 块 结构 栈 的 “出 栈 操作 "。 一 
AS Mé SEBDGR EI 6 ， 那 么 arena 的 所 有 字段 都 应 该 为 空 ， 

freechunks 从 所 有 场 中 收集 空闲 的 存储 块 ， 因 此 会 变 得 越 来 越 大 。 链 表 的 长 度 并 不 是 问 
题 ， 但 是 它 存 储 的 空闲 内 存单 元 可 能 会 有 问题 。freechunks 中 的 存储 块 对 其 他 分 配 程序 而 癌 
就 像 是 已 分 配 的 内 存单 元 ， 因 此 可 能 会 使 得 对 例如 mallow 等 函数 的 调用 失败 。 为 了 避免 收集 
太 多 的 内 存 空间 ，Arena_free 使 得 在 freechunks 中 存储 不 超过 


(macros 98)= 
#define THRESHOLD 10 


个 空闲 存储 块 。 一 旦 nfree 达 到 了 THRESHOLD ， 此 后 的 存储 块 将 通过 调用 free 来 释放 ， 


(free the chunk described by arena 98)= 

if (nfree « THRESHOLD) { 
arena-»prev-»prev - freechunks; 
freechunks = arena-»prev; 
nfree++; 
freechunks->limit = arena->limit; 

} else 
free(arena-»prev); 


图 6-2 中 ， 左 边 的 存储 块 是 需要 被 释放 的 。 当 nfree 小 JTHRESHOLD 时 ， 存 储 块 被 添加 
到 freechunk 中 。 释 放 后 的 存储 块 显示 在 右边 ， 而 虚线 表示 的 是 异常 代码 中 三 个 赋值 语句 的 指 
针 设 置 。 


[97] 


98 
D 
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[6-2 ~4nfree < THRESHOLD 时 释放 存储 块 


参考 目 浅 析 


基于 实 存 块 的 分 配 程序 也 称 做 池 分 配 程序 (pool allocator )， 曾 被 多 次 介绍 过 。 实 存 块 
的 分 配 程 序 (Hanson 1990 ) 最 初 是 为 了 在 lcc ( Fraser 和 Hanson 1995 ) 中 使 用 而 开发 的 。lec 
的 分 配 程序 比 实 存 抉 的 分 配 程序 稍 简单 一 些 : 它 的 场 是 静态 分 配 的 ， 并且 它 的 释放 程序 也 是 
调用 free 完 成 的 。 在 它 最 初 的 版 本 中 ， 分 配 是 通过 直接 处 理 实 存 块 结构 的 宏 指 令 来 完成 的 ， 
并 且 只 有 当 需 要 新 的 存储 块 时 才 调 用 函数 。 

Barrett 和 Zorn (1993 ) 叙述 了 如 何 自动 选择 正确 的 实 存 块 。 试 验 表明 分 配点 的 执行 
径 是 很 好 的 可 用 来 预测 在 该 位 置 分 配 的 存储 块 生存 期 的 信息 ， 该 信息 包括 调用 链 以 及 分 配点 
的 地 址 ， 可 以 利用 它们 来 选择 几 个 应 用 程序 专用 实 存 块 空间 中 的 一 个 。 

Vmalloc(Vo 1996) 是 个 更 通用 的 分 配 程 序 ， 可 以 用 来 实现 Mem 和 Arena 接 口 。Vmalloc 人 允 
许 客 户 调用 程序 将 内 在 组织 到 一 个 区 域 中 ， 并 提供 了 管理 每 个 区 域内 空间 的 函数 。Vmalloc 
库 函 数 包括 一 个 malloc 接 口 的 实现 ， 该 实现 提供 了 Mem 接 口 的 校 验 实 现 中 类 似 的 内 存 检查 ， 
并 且 这 些 检 查 可 以 通过 设置 环境 变量 来 控制 。 

基于 实 存 块 的 分 配 程序 将 许多 显 式 释放 语句 压缩 成 一 个 。 无 用 单元 收集 程序 (Garbage 
collector) 更 进 了 一 步 : 它们 避免 了 所 有 的 显 式 释放 。 在 使 用 无 用 单元 收集 程序 的 程序 设计 
语言 中 ， 程 序 员 几乎 可 以 忽略 存储 单元 的 分 配 ， 且 存储 分 配 错误 也 不 可 能 发 生 ， 这 种 策略 的 
优点 怎么 讲 都 不 夸张 。 

使 用 无 用 单元 收集 程序 ， 空 间 的 回收 是 在 需要 的 时 候 自 动 完成 ， 通 常 是 在 分 配 要 求 不 能 
满足 的 时 候 自动 完成 。 无 用 单元 收集 程序 能 找到 程序 变量 所 引用 的 所 有 存储 块 ， 以 及 由 存储 
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块 中 的 字段 引用 的 所 有 存储 块 等 等 。 这 些 都 是 可 以 访问 的 存储 块 ， 而 剩 下 的 都 是 不 可 访问 的 ， 
并 且 可 以 再 使 用 。 关 于 无 用 单元 收集 程序 有 大 量 的 文献 : Appel(1991) 是 个 简短 的 综述 ， 强 
调 了 最 近 的 一 些 算法 ; 而 Knuth(1973a) 和 Cohen (1981) 更 深入 地 讲述 了 旧 一 点 的 算法 。 

为 了 找到 可 访问 的 存储 块 ， 大 多 数 分 配 程序 必须 知道 哪些 变量 指向 存储 块 以 及 块 中 的 哪 
些 字段 指向 其 他 的 存储 块 。 在 拥有 足够 的 编译 或 运行 时 数据 的 程序 设计 语言 中 ， 回 收 程序 通 
常用 来 提供 必要 的 信息 ， 例 如 LISP 、Icon 、SmallTalk 、ML 以 及 Modula-3。 保 留 收 集 器 
(Boehm 和 Weiser 1988) 可 以 处 理 不 能 提供 足够 类 型 信息 的 程序 设计 语言 ， 像 C 和 C++ 他们 
提出 了 一 个 类 似 于 指针 的 适应 于 任何 边界 调整 的 位 模式 ， 并 将 模式 当 作 一 个 指针 ， 其 指向 的 
存储 块 是 可 访问 的 。 因 此 保留 收集 器 会 把 一些 不 可 访问 的 存储 块 也 当 作 是 可 访问 ， 这 使 得 它 
经 常 处 于 繁忙 状态 ,但 是 没有 别 的 选择 ， 只 能 尽量 将 可 访问 的 存储 块 集合 人 算得 很 大 。 尽管 
保留 收集 器 有 这 个 明显 的 缺点 ， 但 是 它 在 某 些 程序 (Zorn 1993 ) 中 仍然 工作 得 相当 好 , 








练习 


6.1 Arena_alloc 只 查找 由 arena 描 述 的 存储 块 。 如 果 在 那个 存储 块 中 没有 足够 的 益 闲 穴 
IR], ， 即 使 链表 中 后 面 的 存储 块 中 有 是 够 的 空间 ， 它 也 分 配 -一 个 新 的 存储 由 。 修 改 
Arena_alloc 使 得 它 在 有 某 个 在 储 块 有 足够 的 空间 的 情况 ， 分 配 已 存在 的 存储 块 中 的 
空间 ， 并 度量 一 下 这 样 做 有 什么 好 处 。 你 是 否 能 找到 一 个 应 用 程序 ， 它 的 内 存 使 用 
其 由 于 这 样 的 修改 而 得 到 明显 减少 ? 

6.2 当 Arena_alloc 需 要 一 个 新 的 存储 块 时 ， 如 果 空 闲 链表 不 为 空 的 话 ， 它 从 链表 的 表 闲 
取出 一 块 进 行 分 配 。 另 一 种 更 好 的 选择 是 找到 满足 要 求 的 最 大 空闲 存储 块 ， 如 果 
treechunks 中 没有 合适 的 存储 块 ， 那 么 分 配 一 个 新 的 存储 块 。 记 录 freechunks 中 最 
大 的 存储 块 可 以 避免 无 意义 的 遍历 。 如 果 这 么 做 ，Arena_alloc 中 的 while 循 环 就 可 
以 用 if 语句 来 代替 。 实 现 这 种 方案 并 度量 其 性 能 。 它 是 否 会 使 Arena_alloc 的 运行 速 
度 明 显 地 变 慢 ” 它 是 否 可 以 更 有 效 地 使 用 内 存 ? 

6.3 将 THRESHOLD 设 回 为 10 ， 意 味 着 空闲 存储 其 链表 永远 不 会 有 超过 100K 个 字 节 的 
内 存 空间 ， 因 为 Arena_alloc 分 配 的 存储 块 至 少 为 10K 字 节 。 为 Arena_alloc 和 
Arena_free 设 计 一 种 方法 来 监测 分 配 和 释放 的 模式 ， 并 根据 这 些 模式 动态 地 计算 
THRESHOLD 。 这 样 做 的 目的 是 使 得 空闲 存储 块 链 表 尽 可 能 地 小 ， 并 有 旦 调用 malloc 
的 次 数 最 少 。 

6.4 解释 为 什么 Arena 接 口 不 支持 函数 








const char *file, int line) 
就 像 Mem_resize 一 样 ， 该 函数 可 以 将 ptr 所 指向 的 存储 块 的 大 小 变 为 nbytes 个 字 节 ， 
并 返回 一 个 指向 已 修改 了 大 小 的 存储 块 的 指针 ， 该 存储 块 也 可 能 与 原 在 储 块 位 于 同 
一 个 实 存 块 空间 中 (但 不 一 定 在 同一 个 块 中 ), 就 像 ptr 指 定 的 存储 块 一 样 。 你 如 何 
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6.5 


6.6 


修改 实现 以 支持 这 个 函数 ”你 修改 的 实现 中 有 什么 可 检查 的 运行 期 错误 ? 

在 堆栈 分 配 程序 中 ， 一 个 分 配 操作 将 新 的 内 存 空 间 压 人 给 定 堆栈 的 栈 顶 ， 并 返回 其 
第 一 个 字 节 的 地 址 。 标 记 堆 栈 返回 的 该 栈 当 前 高 度 的 编码 值 ， 而 释放 将 使 堆栈 的 栈 
顶 元 素 推 出 ， 使 堆栈 返回 到 之 前 被 标记 的 高 度 。 为 堆栈 分 配 程序 设计 并 实现 一 个 接 
口 。 你 能 给 出 哪些 可 检查 的 运行 期 错误 来 捕获 空间 释放 的 错误 ? 举例 说 明 这 类 错误 ， 
如 释放 高 于 当前 堆栈 栈 顶 的 空间 ， 或 释放 某 个 已 经 被 释放 、 而 后 来 又 被 重新 分 配 了 
的 空间 。 

如 果 程 序 中 有 不 止 一 个 内 存 分 配 接口 ， 就 会 面临 这 样 一 个 问题 ， 在 这 些 接口 之 间 做 
出 选择 ;但 是 对 一 个 特定 的 应 用 程序 来 说 ， 你 可 能 并 不 知道 哪个 接口 是 最 好 的 。 设 
计 并 实现 一 个 单一 的 接口 ， 它 支持 两 种 分 配 程 序 。 例 如 该 接口 可 能 提供 像 
Mem_alloc 的 分 配 函 数 ， 但 是 “分 配 环境 ”中 的 操作 可 以 用 其 他 函数 米 改 变 。 该 环 
境 可 以 指定 内 存 管 理 的 细节 ， 例 如 使 用 的 是 什么 分 配 程序 ， 如 果 使 用 的 是 基于 实在 
块 的 分 配 ， 也 可 以 指定 使 用 的 是 哪个 实 存 块 空间 。 其 他 函数 也 可 以 将 当前 环境 压 人 
内 部 栈 中 ， 然 后 建立 一 个 新 的 环境 ， 最 后 进行 出 栈 操作 以 恢复 原来 的 环境 。 在 你 的 

设计 中 调研 这 些 以 及 其 他 方法 。 


第 7 章 d X 


链表 是 由 零 个 或 多 个 指针 组 成 的 序列 ， 零 个 指针 的 链表 是 空 链表 ， 链 表 中 指针 的 数 日 就 
是 链表 的 长 度 。 几 乎 所 有 的 非常 规 应 用 程序 都 以 某 种 形式 使 用 了 链表 。 正 是 出 于 链表 在 程序 
中 如 此 普及 ， 所 以 一 些 程序 设 计 语 言 把 它们 作为 内 谍 类 型 ， 像 LISP 、Scheme 和 ML 都 足 最 车 
名 的 例子 。 

链表 很 容易 实现 ， 因 此 程序 员 通 常 对 每 个 正在 开发 的 应 用 程序 进行 重新 实现 。 尽 管 大 多 
数 为 应 用 程序 专门 设计 的 链表 接口 都 有 很 多 的 相似 之 处 , 但 还 是 没有 被 广泛 接受 的 标准 接口 。 
以 下 要 说 明 的 抽象 数据 类 型 List 提 供 了 许多 特定 应 用 设计 的 接口 都 会 实现 的 功能 。 第 11 章 中 
描述 的 序列 是 链表 的 另 一 种 表示 方法 。 


7.1 接口 


完整 的 List 接 口 代码 为 ; 


(list. hys 
#ifndef LIST INCLUDED 
#define LIST INCLUDED 


#define T List T 
typedef struct T *T; 


struct T { 
T rest; 
void *first; 
un 
extern T List append (T list, T tail); 
extern T List copy (T list); 
extern T List list (void *x, ...); 
extern T List pop (T list, void **x); 
extern T List push (T list, void *x); 
extern T List reverse(T list); 


extern int List length (T list); 
extern void List free (T *list); 
extern void List map (T list, 
void apply(void **x, void *c1), void *c1); 
extern void **List toArray(T list, void *end); 


#undef T 
fendif 
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List T 足 一 个 指向 List_T 结 构 的 指针 。 大 多 数 ADT 都 隐藏 了 它们 的 类 型 表示 细节 。 而 
List 则 揭示 了 这 些 细 节 ， 因 为 对 这 个 特殊 的 ADT ,隐藏 这 些 细节 所 带 来 的 复杂 性 远 超过 这 样 
做 能 带 来 的 好 处 。 

List_T 的 表示 形式 非常 相似 ， 很 难 想像 会 存在 许多 其 他 的 表示 ， 它 们 的 实现 可 以 提供 足 
够 重要 的 优点 来 证 明 ， 隐 藏 链表 元 素 是 一 个 由 两 个 字段 组 成 的 结构 体 这 一 事实 是 值得 的 。 本 
章 的 练习 中 讨论 了 其 中 的 一 些 表 示 方 法 。 

展现 List_ 工 的 表示 可 以 简化 接口 以 及 它 的 几 种 使 用 方式 。 例 如 List_T 类 型 的 变量 可 以 静 
态 地 定义 和 初始 化 ， 这 对 在 编译 阶段 构建 链表 很 有 用 ， MEME 另外 ， 也 可 以 在 
其 他 的 结构 中 能 和 人 List_T 结 构 。 一 个 空 的 List_T 就 是 一 个 空 的 链表 ， 这 也 是 空 表 最 自然 的 表 
不 ， 并 且 函数 也 不 需要 访问 first 和 rest 字 有 段 。 

接口 中 的 所 有 例 程 都 可 以 接收 一 个 空 T 作 为 链表 参数 ,并 将 它 解 释 成 空 的 链表 。 

List_list 创 建 并 返回 一 个 链表 。 它 随 N 个 非 空 指针 加 一 个 空 指针 一 起 调用 ， 创 建 一 个 有 N 
个 节点 的 链表 ， 这 WN 个 节点 的 first 字 段 在 有 这 N 个 非 空 指针 ， 而 它们 的 rest 字 段 为 空 。 例 如 ， 
赋值 语句 : 


List T pl, p2; 
pl = List list(NULL); 
p2 = List list("Atom", "Mem", "Arena", "List", NULL); 


回 空 链表 以 及 一 个 有 4 个 分 别 存 有 指向 字符 串 “Atom”、“Mem”、*Arena” 和 “List” 的 
节点 的 链表 。List_list 可 能 产生 异常 Mem_Failed 。 

List_list 假 设 其 参数 链表 的 可 变 部 分 传递 的 指针 都 是 空 的 ， 而 接口 也 没有 提供 必要 的 隐 
式 转换 的 原型 ， 央 此 程序 员 必须 在 传递 其 他 不 同 于 字符 和 空 指针 的 参数 作为 第 二 个 或 后 面 的 
参数 时 进行 类 型 转换 。 例 如 ,为 了 构建 一 个 有 4 个 单一 元 案 的 链表 , 分 别 存 有 字符 申 “Atom”、 
"Mem", "Arena" jJ] "List", ik WG gs Hi. 

p = List list(List list("Atom", NULL), 

(void *)List list("Mem", NULL), 


(void *)List list("Arena", NULL), 
(void *)List list("List", NULL), NULL) ; 


如 果 忽 略 在 这 个 例子 中 所 示 的 转换 将 会 导致 不 可 检查 的 运行 期 错误 。 这 样 的 转换 是 可 变 长 度 
参数 链表 的 缺点 之 一 。 

List push(T list,void *X) 在 list 的 表 头 添加 一 个 新 的 节点 ， 存 储 x ， 并 返回 新 的 链表 。 
List_push 可 能 会 产生 异常 Mem_Failed。List_push 是 另外 一 种 构建 新 的 链表 的 方法 ; 例如 Ru 


p2 = List push(NULL, "List"); 
p2 = List push(p2, "Arena"); 
p2 = List push(p2, "Mem"); 

p2 - List push(p2, "Atom"); 


创建 了 与 上 面相 同 的 链表 p2 。 
给 定 一 个 非 空 链表 List pop(T list,void x xX) 将 链表 第 一 个 节点 的 first 字 段 赋值 给 xx 


At Á 77 











如 果 x 不 为 空 ， 那 么 删除 并 释放 第 一 个 接点 ， 并 返回 剩 下 的 链表 。 如 果 给 定 的 足 一 个 空 链表 ， 
那么 List_pop 仪 仪 返回 空 链表 ， 对 *x 不 做 任何 改变 。 

List append(T list, T tail) 在 一 个 链表 中 添加 一 个 链表 : 它 将 tail 赋 值 给 list 链 表 的 最 后 一 
个 节点 的 rest 字 段 。 如 果 1ist 为 空 ， 它 返回 tail 。 因 此 语句 : 

p2 = List append(p2, List. list("Except", NULL)); 
将 P2 赋 值 为 5 个 元 素 的 链表 ， 这 个 5 个 元 素 的 链表 是 通过 向 前 面 创 建 的 4 个 元 素 的 链表 中 添加 
一 个 存 有 Except 元 素 的 链表 形成 的 。 

List_reverse 反 转 了 它 链 表 参 数 中 节点 的 次 序 并 返回 结果 链表 。 例 如 : 





p2 = List. reverse(p2); 
返回 一 个 存 有 “Except”、“LList”、“Arena”、“Mem” 和 “Atom” 的 链表 。 

到 目前 为 止 描述 的 大 部 分 例 程 都 具有 破坏 性 ( destructive ) 或 非 适用 性 ( nonapplicative ): 
它们 可 以 改变 传递 给 它们 的 链表 并 返回 结果 链表 。List_copy 是 一 个 适用 (applicative ) 的 函 
数 : 它 复 制 它 的 参数 ， 并 返回 复制 结果 。 因 此 ， 执 行 下 列 语句 之 后 : 

List T p3 = List_reverse(List_copy(p2)); 
p3ib—^* "Atom", "Mem", "Arena", "List" Al "Except" WHER; p2 没 有 改变 。 
List copy 可 能 会 产生 异常 Mem_Failed。 

List_length 返 回 其 参数 链表 中 的 节点 数 。 

List_free 接 收 一 个 指向 某 个 T 的 指针 为 参数 。 如 果 *list 不 为 空 ， 那 么 List_free 释 放 xlist 中 
所 有 的 节点 ， 并 把 xlist 设 为 空 。 如 果 *list 为 空 ， 那 么 List_free 将 不 做 任何 操作 。 如 果 传 递 一 
个 空 指针 给 函数 List_free ， 将 产生 可 检查 的 运行 期 错误 。 

List_map 对 list 中 的 每 个 节点 调用 apply 所 指向 的 函数 。 客 户 调用 程序 可 以 传递 某 个 应 用 
程序 专用 的 指针 c1 给 List_map ， 并 且 该 指针 也 传 给 *apply ， 作 为 其 第 二 个 参数 。 对 list 中 的 
每 个 节点 ，*apply 连 带 一 个 指向 节点 的 first 字 段 的 指针 和 cl 指针 一 起 被 调用 。 因 为 xapply 是 
和 指向 first 字 段 的 指针 一 起 被 调用 的 ， 所 以 它 可 以 改变 first 字 段 的 值 。 总 的 来 说 ，apply 和 cl 
被 称 为 一 个 财 包 (closure ) 或 回调 (callback ): 它们 一 起 规定 了 一 个 操作 ， 以 及 该 操作 的 一 
些 上 下 文 专用 的 数据 。 例 如 ， 给 定 函数 mmkatom ， 





void mkatom(void **x, void *cl) { 
char **str = (char **)x; 


FILE *fp = cl; 


*str = Atom string(*str); 
fprintf(fp, "%s\n", *str); 
} 


miy AAList_map(p3,mkatom, stderr) Fl 3: 8 EF 35 (8E T'p3 TM SEB, IEE RHR ORT 
口中 输出 结果 : 
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Atom 
Mem 
Arena 
List 
Except 


另 一 个 例子 是 函数 applyFree: 


void applyFree(void **ptr, void *c1) { 
FREEC*ptr); 
} 


该 函数 用 来 在 链表 本 身 被 释放 之 前 ， 释 放出 链表 中 的 first 字 段 所 指向 的 空间 。 例 如 : 
List_T names; 


List map(names, applyFree, NULL); 
List free(&names); 


释放 了 链表 names 中 的 数据 ， 然 后 释放 节点 本 身 。 如 果 apply 改 变 了 list， 这 将 是 一 个 不 可 检 
查 的 运行 期 错误 。 

给 定 一 个 有 AN 个 值 的 链表 ，List_toArray(T List,void *end) 创 建 一 个 数组 ， 它 的 元 素 0 到 N-1 分 别 
存储 链表 中 first 字 段 中 的 N 个 值 ， 而 第 N 个 元 素 存 储 值 end ， 什 end 通常 是 一 个 空 指针 。List_toArray 
返回 一 个 指向 该 数组 第 一 个 元 素 的 指针。 例如 p3 中 的 元 素 可 以 以 排 好 的 顺序 打印 出 来 : 

int i; 
char **array = (char **)List toArray(p3, NULL); 
qsort((void **)array, List length(p3), sizeof (*array), 
Cint (*)(const void *, const void *))compare); 
for (i = 0; array[i]; i++) 
printf("%s\n", array[il); 
FREE(array) ; 
就 如 这 个 例子 所 示 的 一 样 ， 客 户 调用 程序 必须 释放 由 List_toArray 返 回 的 数组 。 如 果 链 表 为 
空 ， 那 么 List_toArray 返 回 一 个 元 素 的 数组 。List_toArray 也 可 能 产生 异常 Mem_Failed , 
197] compare AX CA PREE 函数 gsort 的 使 用 在 8.2 节 中 给 出 。 


7.2 实现 


(ist.c)s 
#include «stdarg.h» 
#include «stddef.h» 
#include "assert.h" 
#include "mem.h" 
#include "list.h" 


#define T List T 


(functions 108) 
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List_push 是 List 接 口中 最 简单 的 函数 。 它 分 配 一 个 节点 ， 初 始 化 ， 然 后 返回 一 个 指 同 它 
的 指针 : 


(functions 108)= 
T List push(T list, void *x) { 


T p; 

NEWCp) ; 

p->first = x; 
p->rest = list; 
return p; 


} 
其 他 创建 链表 的 函数 : 如 List_list ， 稍 复杂 一 些 ， 因 为 它 必 须 处 理 可 变数 目的 参数 ， 并 且 必 
须 为 每 个 非 空 的 指针 参数 添加 一 个 新 的 节点 到 正在 变化 的 链表 中 。 为 了 做 到 这 些 ， 它 使 用 了 
一 个 指针 ， 它 所 指向 的 指针 指向 新 的 节点 且 应 该 被 赋 过 值 : 





(functions 108)+= 
T List list(void *x, ...) { 
va list ap; 
T list, *p - &list; 


va.start(ap, x); 
for ( ; x; x = va arg(ap, void *)) { 
NEWC*p) ; 
(*p)->first = x; 
p = &(*p)->rest; 


} 
*p = NULL; 
va_end(ap); 


return list; 
} 
P 开 始 指 向 list， 因 此 指向 第 一 个 节点 的 指针 被 赋值 给 list。 此 后 ,，p 指 向 链表 中 最 后 一 个 节点 
的 rest 字 段 ， 因 此 ， 对 *p 的 赋值 就 向 链表 中 添加 了 一 个 节点 。 下 面 的 图 显示 fp 的 初始 化 的 
效果 以 及 当 List_list 构 造 了 一 个 有 三 个 节点 的 链表 时 ，for 循 环 体 中 的 语句 对 p 的 效果 。 
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每 次 循环 都 将 对 下 一 个 指针 参数 赋 给 x， 当 它 到 达 第 一 个 空 指 针 参 数 的 时 候 停止 ， 空 指 
针 也 可 能 昆 x 的 初始 值 。 这 个 习惯 用 法 保证 了 List_list(NULL) 返 回 的 是 一 个 空 链表 ， 即 一 个 
空 指 针 。 
List_list 使 用 了 指向 指针 的 指针 : List T *s， 这 是 许多 链表 操作 算法 的 典型 用 法 。 它 用 
了 -种 简明 的 机 制 来 处 理 可 能 为 空 的 链表 中 的 初始 节点 ， 以 及 一 个 非 空 链表 的 内 部 节点 。 
[109] List_append 说 明了 这 种 习惯 用 法 的 男 一 个 范例 : 





(functions 108)+= 
T List append(T list, T tail) { 


T *p = &list; 
while (*p) 
= &(*p)-»rest; 
*p = tail; 
return list; 
} 
List append'P 8 48 £F p — ECT 3$ list ait ， 直 到 它 指向 一 个 list 末 端的 空 指针 tail gU Ak R 
值 为 空 指 针 。 如 果 list 本 身 就 是 空 指针 ， 那 么 p 在 指向 list 的 时 后 就 结束 了 ， 这 正 是 添加 tail 到 
一 个 空 链表 所 希望 达到 的 效果 。 


List. copy 是 List 接 口中 最 后 一 个 使 用 指向 指针 的 指针 的 习惯 用 法 的 函数 : 


(functions 108)+= 
T List copy(T list) { 
T head, *p = &head; 


for ( ; list; list = list-»rest) { 
NEW(*p) ; 
(*p)->first = list-»first; 
= &(*p)-»rest; 
} 
= NULL; 
return head; 


} 


指向 指针 的 指针 并 不 能 简化 List_pop 或 List_reverse , NN 也 许 用 更 明显 的 
实现 就 已 经 足够 了 了。List_pop 删除 非 空 链表 中 的 第 一 ， 并 返回 删除 后 新 的 链表 ， 或 仅 
仅 返 回 一 个 空 的 链表 ; 


(functions 108)+= 
T List pop(T list, void **x) { 


if (liso { 
T head = list-»rest; 
if (x) 
*x = list->first; 
FREE(list); 


return head; 
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} else 
return list; 


} 
ünExdEZs, HA xe rp — 5 ARMAS, RAK A Wi first Be. 注意 : 
List_pop 必须 在 删除 list 指 向 的 节点 之 前 保存 list->rest。 
List reverse 有 两 个 指针 沿 着 链表 前 进 ，list 和 next ， 并 在 前 进 时 使 用 这 两 个 指针 闭 转 链 
表 ; new 总 是 指向 已 逆转 的 链表 的 第 一 个 接点 ; 
(functions 108)+= 


T List reverse(T list) { 
T head x NULL, next; 


for ( ; list; list = next) { 
next « list-»rest; 
list-»rest = head; 
head = list; 
} 
return head; 
} 
FAKER UR IRR, TER AB PB RATZEA; 对 next 的 赋值 ， 针 对 
的 是 链表 中 的 第 三 个 元 素 。 


head next 
| 7 [E 
list 
next 指 向 list 的 后 继 ， 当 list 指 向 最 后 一 个 节点 时 ，hext 指 向 空 值 ， 而 head 指 向 已 逆转 的 链表 ， 
它 开 始 指向 list 的 前 驱 ; 当 list 指 向 第 一 个 节点 时 ，head 指 向 空 值 。 循 环 体 中 的 第 二 个 或 第 三 


个 语句 将 由 list 指 向 的 节点 挂 接 到 head 链 表 的 表 头 ， 而 递增 表达 式 list = next 把 list 向 它 的 后 继 
推进 ， 其 后 链表 的 指针 如 下 网 所 示 : 
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下 一 次 通过 循环 体 时 ，next 将 再 次 前 进 。 
List_length 遍 历 list 链 表 ， 对 它 的 节点 进行 计数 ， 而 List_free 遍 历 list 链 表 ， 释放 其 每 个 节点 : 


(functions 108)+= 
int List length(T list) { 
int n; 


for (n = 0; list; list = list-»rest) 
ne; 
return n; 


} 


void List free(T *list) ( 
T next; 


assert(list); 

for C ; *list; *list = next) 1 
next - (*list)-»rest; 
FREEC* list); 


} 
List_map 听 起 来 很 复杂 ， 其 实 它 很 简单 ， 因 为 闭 包 函数 已 经 完成 了 所 有 的 工作 。 
List map 只 需要 遍历 list 链 表 ， 使 用 指向 每 个 节点 的 first 字 段 的 指针 以 及 客户 调用 程序 专用 的 
1H frc 1 Ria FH PE] A: 
(functions 108)+= 
void List map(T list, 
void apply(void **x, void *c1), void *c1) ( 
assert(apply); 


for C ; list; list = list->rest) 
apply(&list-»first, cl); 


} 
List_toArray 分 配 一 个 有 N+I 个 元 素 的 数组 来 保存 N 个 元 素 链表 的 指针 ， 并 把 这 些 指 针 复 
制 到 数组 中 : 


(functions 108)+= 
void **List toArray(T list, void *end) { 
int i, n = List length(list); 
void **array = ALLOC((n + 1)*sizeof C*array)); 


for (i = 0; i < n; i++) { 
array[i] = list->first; 
list = list-»rest; 

} 

array[i] = end; 

return array; 


} 
为 空 链表 分 配 一 仅 含 一 个 元 素 的 数组 看 上 去 是 种 浪费 ， 但 是 这 样 做 的 目的 是 使 得 List_toArray 


fé 
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指针 。 


参考 书目 浅 析 


Knuth (1973a ) 描述 了 所 有 的 处 理 单 链表 的 重要 算法 ， 类 似 于 List 接 口 提 供 的 这 些 算 法 ， 
以 及 由 Ring 提 供 的 处 理 双 链表 的 所 有 重要 的 算法 ( 第 12 章 中 给 出 了 说 明 )。 

在 诸如 LISP 和 Scheme 的 链表 处 理 语言 以 及 诸如 ML (Ullman 1994 ) 的 函数 语言 中 都 使 
用 了 链表 。Abelson 和 Sussman ( 1985 ) 旦 众多 讲述 链表 是 如 何 被 用 米 解 决 几乎 任何 问题 的 
教材 中 的 一 本 ， 它 使 用 的 语言 是 Scheme 。 


练习 


7.1 


7.2 
7.3 
7.4 


设计 一 个 链表 ADT， 隐 藏 链表 的 表示 ， 并 且 不 使 用 空 指针 来 表示 空 链表 。 先 设计 该 
ADT 的 接口 ， 然 后 完成 一 个 实现 。 其 中 一 种 方法 是 设 List_T 是 一 个 隐 式 指针 ， 指 向 
某 个 链表 的 表 头 ， 该 表 头 保存 一 个 指向 链表 本 身 的 指针 或 者 一 个 同时 指向 链表 中 第 
一 个 元 素 和 最 后 一 个 元 素 的 指针 。 链 表 的 表 头 也 可 能 存 有 链表 的 .- 度 。 

里 写 List_list ，List_append 和 List_copy ， 不 使 用 指向 指针 的 指针 、 

使 用 指向 指针 的 指针 重 写 List_reverse. 

List_append 是 一 个 在 许多 应 用 程序 中 使 用 频率 最 高 的 链表 操作 ， 它 必须 遍历 到 链 
表 的 末尾 ， 央 此 对 N 个 元 素 的 链表 ， 它 花费 的 时 间 是 O(N)。 循 环 链接 表 是 单 链表 的 
男 一 种 表示 方法 。Mem 接 口中 校 验 实现 的 未 分 配 链表 就 是 一 个 循环 链接 表 。 在 循 
环 链接 表 中 最 后 一 个 节点 的 rest 字 有 段 指向 第 一 个 接点 , 而 链表 本 身 出 一 个 指向 最 后 
一 个 节点 的 指针 表示 。 因 此 ,在 常数 时 间 内 变 可 以 访问 到 第 一 个 节点 也 可 以 访问 到 
最 后 一 个 节点 ,并且 添 加 一 个 节点 到 循环 链表 也 可 以 在 常数 时 间 内 完成 。 设计 一 个 
链表 ADT 的 接口 ， 使 用 循环 链接 表 。 用 隐藏 或 显 式 表示 的 接口 来 做 实验 。 





第 8 章 表 ^8 


一 个 关联 表格 (associative table) 是 一 个 关键 字 - 值 对 的 集合 。 它 很 像 是 数组 ， 惟 一 的 
不 同 是 它 的 下 标 可 以 是 任何 类 型 的 值 。 在 许多 应 用 程序 中 都 使 用 了 表格 。 例 如 编译 器 就 保存 
有 符号 表 ， 该 符号 表 将 名 字 映 射 成 那些 名 字 的 一 组 属性 .一些 窗口 系统 也 保存 了 一 个 表格 ， 
它 把 窗口 标题 映射 到 与 窗口 关联 的 某 类 数据 结构 中 。 文 档 预 备 系统 使 用 表格 来 表示 索引 : 例 
如 ， 索 引 可 能 是 表格 ， 表 格 中 的 关键 字 是 一 个 字符 的 字符 趾 索引 的 每 个 区 段 一 个 关键 字 
一 一 而 关键 字 的 值 是 另外 的 表格 ， 其 关键 字 是 索引 项 本 身 的 字符 串 ， 其 值 是 页 码 的 列表 。 

表格 有 很 多 种 使 用 方法 ， 如 果 给 每 种 使 用 举 一 个 例子 可 能 得 花 去 一 整 章 的 笔墨 。Table 
接口 就 是 为 了 能够 在 这 许多 的 用 法 中 被 使 用 而 设计 的 。 它 保存 有 关键 字 - 值 对 ， 但 是 它 从 来 
不 检查 关键 字 本 身 ; 只 有 客户 调用 程序 通过 传递 给 Table 中 的 例 程 的 函数 来 检查 关键 字 。8.2 
节 中 给 出 了 一 个 典型 的 Table 客 户 调用 程序 ， 一 个 将 其 输入 中 出 现 的 单词 数目 打印 出 来 的 程 
序 。 该 程序 wf 同时 也 使 用 了 Atom 和 Mem 接 口 。 








8.1 接口 


Table 接 口 用 隐 式 指针 类 型 来 表示 一 个 关联 表格 : 


(table.hys 
#ifndef TABLE INCLUDED 
fdefine TABLE INCLUDED 
#define T Table T 
typedef struct T *T; 


(exported functions 116) 


Zundef T 
fendif 


导出 函数 对 Table_T 进 行 分 配 和 回收 ， 从 这 些 表格 中 添加 或 移出 关键 字 - 值 对 以 及 在 表格 中 访 
问 关 键 字 - 值 对 。 如 果 把 一 个 空 的 Table_T 或 空 的 关键 字 传 递 给 该 接口 中 的 任何 函数 ， 都 会 产 
生 可 检查 的 运行 期 错误 。 
Table_T 是 通过 以 下 国 数 来 进行 分 配 和 回收 的 
(exported functions 116)= 
extern T Table new (int hint, 
int cmp(const void *x, const void *y), 


unsigned hash(const void *key)); 
extern void Table free(T *table); 





[is] 


86 R83 





Table, new Ay 3h 一 个 参数 hint 是 对 新 表 中 期 望 存储 的 记录 项 数目 的 估计 。 不管 hint 的 值 是 多 少 ， 
所 有 的 表格 都 可 以 存储 任意 数目 的 记录 项 ， 但 是 如 果 hint 的 值 很 精确 的 话 ， 有 可 能 会 提高 性 
能 。 如 果 hint 的 值 为 负数 ， 也 会 产生 可 检查 的 运行 期 错误 。 函 数 cmp 和 hash 处 理 客户 调用 程 
序 指定 的 关键 字 。 给 定 两 个 关键 字 x 和 y , cmp(x,y) 必 须 返 回 一 个 小 于 0、 等 于 0 或 大 于 0 的 整数 ， 
Ar SMS RN EY 、 TIE Ty. 标准 的 库 珊 数 strcmp 就 是 一 个 以 字符 串 为 关键 字 的 比较 
PARC D] P. hash 函数 必须 返回 一 个 key 的 散 列 值 ， 如 果 cmp(x,y) 返 回 0 ， 那 么 hash(x) 必 须 等 
于 hash(y)。 每 个 表格 都 可 以 有 它 自 己 的 hash 和 cmp 函数 。 

原子 通常 被 当 作 关键 字 来 使 用 ， 因 此 如 果 hash 是 个 空 的 函数 指针 ， 那 么 新 表 中 的 关键 字 
将 被 当 作 原子 ， 且 Table 的 实现 提供 了 一 个 合适 的 hash 函数 。 同 样 地 ， 如 果 cmp 是 一 个 空 的 函 
数 指针 ， 那 么 关键 字 也 被 当 作 原 子 ， 且 如 果 x = y， 关 键 字 x 和 y 相 等 。 

Table_new 可 能 产生 异常 Mem_Failed 。 

Table_new 的 参数 : 一 个 大 小 提示 、 一 个 hash 函 数 以 及 一 个 比较 函数 ,提供 的 信息 比 大 
多 数 实现 所 需要 的 更 多 。 例如， 在 8.3 节 中 描述 的 散 列表 的 实现 ， 它 需要 一 个 比较 函数 ， 只 
用 来 测试 相等 与 否 ， 而 使 用 树 的 实现 就 并 不 需要 大 小 提示 或 hash 函数 这 种 复杂 性 就 是 一 
允许 多 种 实现 的 设计 的 代价 ， 而 这 也 是 设计 好 的 接口 很 难 的 原因 之 一 。 

Table free 释放 *table ， 并 把 它 设 为 空 指针 。 如 果 table 或 *table 为 空 ， 也 是 可 检查 的 运行 
期 错误 。Table_free 并 不 释放 关键 字 或 其 值 ， 它 们 在 Table_map 中 被 释放 。 

PRR : 

(exported functions 116)+= 

extern int Table length(T table); 
extern void *Table put (T table, const void *key, 
void *value); 


extern void *Table get (T table, const void *key); 
extern void *Table remove(T table, const void *key); 


返回 表格 中 关键 字 的 数目 、 添 加 一 个 新 的 关键 字 - 值 对 或 改变 一 个 已 存在 的 关键 字 - 值 对 的 值 、 
删除 与 某 关 键 字 关 联 的 值 以 及 删除 一 个 关键 字 - 值 对 。 

Table_length 返 回 在 table 中 关键 字 - 值 对 的 数目 。 

Iable_put 族 加 一 个 由 key 和 value 给 定 的 关键 字 - 值 对 到 table 中 。 如果 table 已 经 存 有 key， 
好人 么 用 value 艾 盖 先 前 的 值 ， 并 且 Table_put 返 回 先前 的 值 。 再 则 ，key 和 value 的 值 被 添加 到 
table 中 ， 表 格 的 记录 项 数 加 1， 并 且 Table_put 返 回 一 个 空 指 针 。 Table_put 可 能 产生 异常 
Mem Failed , 

MODUM 如 果 找 到 ， 返回 与 该 关键 字 关 联 的 值 。 BUM 
te EVA KE E. Table getR HAs JEfE , HERE. 如 果 table 本 身 就 在 有 空 指针 的 值 , 那么 
S KLAE AS 

Table removeth frtable 中 查找 关键 字 key ， 如 果 找 到 ， 就 从 表格 中 删除 该 关键 字 - 值 对 . 
因此 表格 的 记录 项 数 减 1， 并且 返 回 被 删除 的 值 。 如 果 table 不 存在 关键 字 key， 闭 么 




















Table_remove 对 table 不 做 任何 操作 ， 并 返 jal 3s 指针 。 
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函数 : 
(exported functions 116)+= 
extern void . Table map (T table, 
void apply(const void *key, void **value, void *cl), 
void *cl); 


extern void **Table toArray(T table, void *end); 
访问 关键 字 - 值 对 并 把 它们 收集 到 一 个 数组 中 。Table_map 以 不 确定 的 次 序 对 table 中 的 每 个 关 
键 字 - 值 对 调用 apply 指 向 的 函数 。apply 和 cl 指定 了 一 个 闭 包 : 客户 调用 程序 可 以 传递 一 个 应 
用 程序 专用 的 指针 c1 给 Table_map ， 并 且 这 个 指针 在 每 次 调用 时 又 传递 给 apply 。 对 table 中 的 
每 个 关键 字 - 值 对 ，apply 是 同 它 的 关键 字 、 指 向 它 的 值 的 指针 以 及 cl 一 起 调用 。 央 为 apply 是 
同 指向 它 的 值 的 指针 一 起 调用 的 ， 因 此 ， 它 可 以 改变 它 的 值 。Table_map 同 时 也 可 以 在 释放 
表格 之 前 用 来 释放 关键 字 或 值 。 例 如 ， 假 设 关键 字 是 原子 ， 函 数 

static void vfree(const void *key, void **value, 


void *c1) 1 
FREE(*value); 





} 
只 释放 了 值 ， 央 此 


Table map(table, vfree, NULL); 
Table free(&table); 


释放 了 表格 中 的 值 ， 然 后 释放 表格 本 身 。 

如 果 在 apply 中 ， 通 过 调用 Table_put 或 Table_remove 来 改变 table 的 内 容 ， 可 能 产 牛 一 个 
可 检查 的 运行 期 错误 。 

对 于 个 关键 字 - 值 对 的 表格 ，Table_toArray 构 建 一 个 有 2N+1 个 元 素 的 数组 并 返 回 一 个 
指向 其 第 一 个 元 素 的 指针 。 关 键 字 和 值 交替 出 现 ， 关 键 字 出 现在 奇数 号 元 素 ， 而 它们 关联 的 
值 在 接 下 来 的 偶数 号 元 素 中 。 最 后 一 个 偶数 号 元 素 ， 即 索引 号 2W 赋 值 end ， 通 常 是 个 空 指针 。 
数组 中 关键 字 - 值 对 的 次 序 是 不 确定 的 。8.2 节 中 描述 的 程序 说 明了 Table_toArray 的 使 用 。 

Table toArray 可 能 会 产生 异常 Mem_Failed ifi EL 客户 调用 程序 必须 释放 它 返 回 的 数组 ， 





8.2 例子 : 单词 频率 


wf 列 出 了 在 命名 文件 列表 或 标准 输入 ( 如 果 没 有 指定 文件 ) 中 出 现 的 每 个 单词 的 次 数 。 
例如 : 


% wf table.c mem.c 
table.c: 

3 apply 

7 array 

13 assert 

9 binding 

18 book 

2 break 
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10 buckets 
4 y 
mem.c: 
1 allocation 
7 assert 
12 book 
1 stdlib 
9 void 


就 和 这 结果 显示 的 一 样 ， 每 个 文件 中 的 单词 都 按 字母 顺序 列 出 ， 在 单词 之 前 还 有 它们 在 文件 
中 出 现 的 次 数 。 对 wf 来 说 ,一 个 单词 是 一 个 以 字母 开头 ， 由 0 个 或 多 于 0 个 的 字母 或 下 划 线 组 
成 的 ， 大 小 写 无 关 。 

更 通用 地 说 ， 一 个 单词 以 first 集 合 中 的 某 个 字符 开头 ， 由 rest 集 合 中 0 个 或 更 多 的 字符 组 
成 。 这 种 形式 的 单词 由 getword 识 别 , 该 函数 是 1.1 节 中 描述 的 double 中 的 getword 的 常用 定义 。 
在 本 书 中 人 就 够 用 了 ， 在 它 自 己 的 接口 中 被 单独 打包 成 ; 


(getword.h)= 
#include <stdio.h> 





extern int getword(FILE *fp, char *buf, int size, 
int first(int c), int rest(int c)); 


getword 从 fp 打开 的 文件 中 读 取 下 一 个 单词 ， 把 它 当 作 -- 个 以 null 结 束 的 字符 串 存储 在 
buf[0..size-1] 中 ， 并 返回 1 。 当 它 达到 文件 末尾 ， 而 没 找到 单词 CIR IO, MAcfirst Hrest Wl 
试 某 个 字符 是 否 是 first 和 rest 集 合 中 的 成 员 。 一 个 单词 是 字符 的 相 邻 序列 ; 它 以 字符 开始 ， 
对 该 字符 first 函 数 返回 一 个 非 0 值 ， 外 加 由 函数 rest 返 回 非 0 值 的 字符 组 成 。 如 果 一 个 单词 长 
于 size-2 个 字符 ， 那 么 超过 的 字符 被 截断 。size 必 须 大 于 1， 并 且 fp 、buf、first 以 及 rest 必 须 
不 为 空 。 


(getword.cys 
#include «ctype.h» 
#include <string.h> 
#include <stdio.h> 
#include "assert.h" 
#include “getword.h” 


int getword(FILE *fp, char “buf, int size, 
int first(int c), int rest(int c)) { 
int 1-0, c; 


assert(fp && buf && size » 1 && first && rest); 
c = getc(fp); 
for C; c != EOF; c = getc(fp)) 
if Cfirst(c)) { 
(store c in buf if it fits 120) 
c = getc(fp); 





break; 


} . 
for ( ; c != EOF && rest(c); c = getc(fp)) 
(store c in buf if it fits 120) 
if (i < size) 
buf[i] = 0; 
else 
buf[size-1] = 0; 
if (c != EOF) 
ungetc(c, fp); 
return i > 0; 


H 
(store c in buf if it fits 120)= 

{ 
if Gi < size - 1) 
buf [i++] = c; 

} 


这 个 版 本 的 getword 比 double 中 的 复杂 一 些 ， 因 为 这 个 版 本 的 getword 必 须 在 当 某 个 字符 在 
first 集 合 中 ， 而 又 不 在 rest 集 合 中 时 才 工 作 .如果 first 表 数 返回 值 非 0， 却 么 该 字符 人 存在 buf 中 , 
并 且 只 有 接 下 来 的 字符 才 传 给 rest 函 数 。 

wf 的 主 函 数 main 处 理 wf 的 参数 ,此 参数 为 文件 命名 。main 打 开 每 一 个 命名 文件 ， 然 后 
以 文件 指针 和 文件 名 为 参数 调用 wf: 


(wf functions 121)= 
int main(int argc, char *argv[]) { 
int i; 











for (i = 1; i < argc; i++) { 
FILE *fp = fopen(argv[i], "r"); 
if (fp == NULL) { 
fprintf(stderr, "%s: can't open '%s' (%s)\n", 
argv[0], argv[i], strerror(errno)); 
return EXIT_FAILURE; 


} else { 
wfC(argv[i], fp); 
fclose(fp); 

} 


} 
if (argc == 1) wf(NULL, stdin); 
return EXIT_SUCCESS; 

} 


(wf includes 121)= 
#include <stdio.h> 
#include <stdlib.h> 
#include <errno.h> 


ln VER (ERSTER, AB main BAAS XHA Rb HEME ASCE TS ESRO WE, SOC HEAR UE 





T 
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wf 不 用 打印 出 文件 的 名 字 。 

wf 使 用 表格 来 存储 单词 和 它们 出 现 的 次 数 。 每 个 单词 都 换 成 小 写 ， 转 换 成 原子 ， 作 为 关 
键 字 使 用 。 使 用 原子 使 得 wf 采 用 默认 表格 的 hash 函数 和 比较 函数 。 虽然 wi 的 值 都 是 指针 ， 但 
是 它 仍 然 需 要 把 一 个 整数 计数 与 等 个 关键 字 关 联 起 米 。 因 此 人 它 分 配 一 个 空间 给 计数 器 ， 并 在 
表格 中 存储 指向 该 区 域 的 指针 。 


(wf functions 121)+= 
void wf(char *name, FILE *fp) { 
Table T table = Table_new(0, NULL, NULL); 
char buf[128]; 


while (getword(fp, buf, sizeof buf, first, rest)) { 
const char “word; 
int i, *count; 
for (i = 0; buf[i] != '\0'; i++) 
buf[i] = tolower(buf[i]); 
word = Atom_string (buf); 
count = Table_get(table, word); 
if (count) 
C* count) +4; 
else { 
NEW(count) ; 
*count = 1; 
Table put(table, word, count); 


} 


if (name) 
printfC"%s:\n", name); 
{ (print the words 123) ) 
(deallocate the entries and table 124) 


} 


(wf includes 121)+= 
#include «ctype.h» 
#include "atom.h" 
#include "table.h" 
#include “mem.h" 
#include "getword.h" 


(wf prototypes 122)= 
void wf(char *, FILE *); 
count —^- fi fe] —4 AGE fF. du SETable get EA, AE ZAR ISP fEtablerP, Aukwty 
计数 器 分 配 空间 ,初始 化 为 1 ， 说 明 这 之 是 该 单词 的 第 一 次 出 现 ， 并 把 它 添加 到 表格 中 。 当 
Table_get 返 回 非 空 指针 时 ， 表 达 式 (*count)++ 和 将 该 指针 指向 的 整数 加 1 。 该 表达 式 与 
*count++ 有 很 大 的 不 同 ， 后 者 将 count 加 1 而 不 是 它 所 指向 的 整数 。 
first 和 rest 集 合 中 的 成 员 是 用 标准 头 文件 ctype.h 中 使 用 谓词 定义 的 同名 函数 来 测试 的 ; 
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(wf functions 121)+= 
int firstCint c) { 
return isalpha(c); 


} 


int rest(int c) { 
return isalpha(c) || c == '_'; 


} 


(wf prototypes 122)+= 
int firstCint c); 
int rest (int c); 
一 旦 wf 已 经 读 出 了 所 有 的 单词 ， 那 么 它 必须 将 它 排 序 并 打印 出 米 。 标 准 C 函 数 库 中 的 排 
序 函 数 qsort 被 用 来 排序 数组 。 内 此 如 果 wt 告 诉 gsort 数 组 中 的 关键 字 - 值 对 应 该 被 当做 一 个 单 
一 的 元 素 处 理 ， 孝 么 它 就 可 以 排序 Table_toArray 返 回 的 数组 。 然 后 wf 可 以 通过 遍历 数组 将 
单词 和 它们 的 计数 打印 出 来 : 
(print the words 123)= 
int i; 
void **array = Table toArray(table, NULL); 
qsort(array, Table length(table), 2*sizeof (*array), 
compare); 
for (i = 0; array[i]; i += 2) 
printf('XadNtXsNn", *Cint *)array[i«1], 
(char *)array[i]); 
FREE (array); 


qsort 接 收 4 个 参数 : 数组 、 元 素 的 个 数 、 每 个 元 素 所 占 的 字 节 数 以 及 用 来 比较 两 个 元 素 
的 国 数 。 为 了 把 N 个 关键 字 - 值 对 当 作 一 个 单一 的 元 素来 处 理 ，wf 告 诉 qsort 有 N 个 元 素 ， 且 每 
个 元 素 的 空间 出 两 个 指针 占用 。 
qsort 用 指向 元 素 的 指针 来 调用 比较 函数 。 每 个 元 素 本 身 用 到 两 个 指针 ， 一 个 指向 单词 ， [123] 
一 个 指向 单词 的 计数 ， 因 此 以 两 个 指向 字符 的 指针 为 参数 来 调用 比较 函数 。 例 如 ，mem.c 中 
的 assert 与 book 进 行 比较 的 时 候 ， 参 数 x 和 y 如 下 : 





x 
x 


y 
book 


比较 函数 也 可 以 调用 stremp 来 比较 单词 : 


(wf functions 121)+= 
int compare(const void *x, const void *y) ( 


B 
Oo 
* 


92 





return strcmp(*(char **)x, *(char **)y); 
} 


(wf includes 121)+= 
finclude «string.h» 


(wf prototypes 122)+= 
int compare(const void *x, const void *y); 
wf 函 数 对 每 个 文件 名 参数 都 进行 调用 。 因 此 ,为 了 节省 空间 ， 它 应 该 在 返回 之 前 释放 表 
格 以 及 计数 。 调 用 Table_map 释 放 计 数 ， 调 用 Table_free 来 释放 表格 本 身 。 
(deallocate the entries and table 124)= 


Table map(table, vfree, NULL); 
Table. free(&table); 


(wf functions 121)+= 
void vfree(const void *key, void **count, void *cl) { 
FREE(*count) ; 
} 


(wf prototypes 122)+= 
void vfree(const void *, void **, void *); 


关键 字 不 被 释放 ， 因 为 它们 是 原子 ， 央 此 关键 字 一 定 不 能 被 释放 。 除 此 之 外 ， 些 关键 字 有 


可 能 出 现在 下 面 的 文件 中 。 
把 各 种 wf.c 的 程序 定义 片段 收集 起 来 就 形成 了 wf 程 序 : 
(wf.o= 


(wf includes 121) 
(wf prototypes 122) 
(wf functions 121) 


8.3 ZA 


{table.o= 
#include <limits.h> 
#include «stddef.h» 
#include "mem.h" 
#include "assert.h" 
#include "table.h" 


#define T Table_T 


(types 125) 
(static functions 127) 
(functions 126) 


散 列 表 是 用 来 表示 关联 表 ( 树 是 另外 一 种 ， 参 见 练习 8.2 ) 的 常见 数据 结构 之 一 。 因 此 每 
个 Iable_T 都 是 一 个 指向 存 有 bindings 结 构 的 散 列 表 的 指针 ， 该 散 列表 中 存储 的 是 关 键 字 - 值 对 ; 
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(types 125)= 
struct T { 
(fields 126) 
struct binding { 
struct binding *link; - 
const void *key; 
void *value; 
 **buckets; 
Hh 


buckets 15 [5] Aid 当 元 素数 目的 数组 cmp fllhash 函数 与 某 个 特定 的 表 关 联 ， 因 此 它们 都 存储 
在 buckets 结 构 中 的 元 素 中 : 


(fields 126)= 
int size; 
int (*cmp)(const void *x, const void *y); 
unsigned (*hash)(const void *key); 


Table_new 用 它 的 hint 参 数 来 选择 一 个 素数 作为 buckets 的 大 小 ,并 且 它 保存 cmp 和 hash 或 保存 
指向 静态 函数 的 指针 ， 用 来 比较 和 散 列 原子 : 


(functions 126)= 
T Table new(int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *key)) ( 
T table; 
int i; 
static int primes[] = { 509, 509, 1021, 2053, 4093, 
8191, 16381, 32771, 65521, INT MAX }; 


assert(hint >= 0); 
for (i = 1; primes[i] < hint; i++) 


table = ALLOC(sizeof (*table) + 
primes [i-1]*sizeof (table->buckets[0])); 
table->size primes[i-1]; 
table-»cmp cmp ? cmp : cmpatom; 
table->hash = hash ? hash : hashatom; 
table->buckets = (struct binding **)(table + 1): 
for (i20; i < table-»size; i++) 
table->buckets[i] = NULL; 
table->length = 0; 
table->timestamp = 0; [126] 


return table; 


} 
for 循 环 中 将 i 设置 为 primes 中 的 第 :个 等 于 或 大 于 hint 的 元 素 的 下 标 ， 而 primes[i_1] 给 出 了 
buckets 中 元 素 个 数 。 注 意 ; 循环 是 从 1 开始 的 。Mem 接 口中 的 ALLOC 为 buckets 分 配 结构 和 
.空间 。Table 用 素数 来 作为 其 散 列表 的 大 小 是 因为 它 无 权 决 定 关 键 字 的 散 列 值 的 计算 方式 。 
primes 中 的 值 都 足 最 靠近 2"(9<n<16) 的 素数 ， 这 使 得 散 列 表 的 大 小 范围 很 广 。Atom 中 使 用 了 
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一 个 更 简单 的 算法 ， 央 为 它 间 时 也 计算 了 散 列 值 . 
如 果 cmp 或 hash 是 空 的 函数 指针 ， 那 么 就 用 以 下 两 个 函数 来 代替 : 


(static functions 127)= 
static int cmpatom(const void *x, const void *y) { 


return x != y; 


} 


static unsigned hashatom(const void *key) { 
return (unsigned long)key>>2; 


} 

因为 如 果 x = y， 那 么 原子 x 和 y 是 相等 的 ， 所 以 当 x = y 时 cmpatom 返回 0 ， 否 则 返回 1。Table 
的 这 个 特殊 实现 只 测试 关键 字 是 否 相 等 ， 因 此 cmpatom 并 不 需要 测试 x 和 y 的 相对 次 序 。 一 个 
原子 就 是 一 个 地 址 并 且 这 个 地 址 本 身 就 可 以 用 做 散 列 值 ; 它 总 是 循环 右 袍 两 位 ， 内 为 每 个 原 
子 很 有 可 能 都 以 某 个 单词 的 词 头 边界 开始 ， 因 此 最 后 两 位 很 有 可 能 为 0 。 

buckets 的 每 个 元 素 都 是 一 个 binding 结 构 的 链接 表 ， 该 结构 中 存 有 关键 字 、 其 关联 的 值 
以 及 指向 链表 中 下 一 个 binding 结 构 的 指针 ,图 8.1 给 出 :一 个 例子 。 每 个 链表 中 所 有 的 关键 字 
都 有 相同 的 散 列 值 。 














Rj8-1 表 的 布 


al 


Table_get # 4x binding 的 过 程 如 下 : 先 散 列 它 的 关键 字 ， 将 它 对 buckets 的 元 素 个 数 取 余 ， 
并 在 查找 列表 中 查找 与 key 相 等 的 关键 字 ， 通 过 调用 table 的 hash 和 cmp 函数 来 实现 。 


(functions 126)+= 
void *Table get(T table, const void *key) { 





int i; 

struct binding *p; 
assert(table); 

assert(key); 

(search table for key 128) 
return p ? p-»value : NULL; 


} 


(search table for key 128% 
i = (*table->hash) (key) Xtable-»size; 
for (p = table->buckets[i]; p; p = p->link) 
if (C'table-»cmp)(key, p->key) == 0) 
break; 
当 找到 所 需 查找 的 关键 字 的 时 候 ，for 循 环 结束 ， 因 此 它 使 得 p 指 向 感 兴趣 的 binding 结 构 。 否 
WW, pA. 
Table_put 也 是 类 似 的 。 它 查找 某 个 关键 字 ， 如 果 找 到 ， 那 么 改变 与 其 关联 的 值 ; 如 果 
Table_put 没 找到 该 关键 字 ， 它 将 分 配 并 初始 化 一 个 新 的 binding 结 构 ， 并 把 它 添加 到 buckets 
上 相应 链表 的 表 头 。Table_put 可 以 把 新 的 binding 链 接 到 链表 中 的 任何 位 置 ， 但 是 添加 到 链 


表 的 表 头 是 最 容易 也 最 有 效 的 方法 。 


127 
a 
128 





(functions)+= 
void *Table_put(T table, const void *key, void *value) { 
int i; 
struct binding *p; 
void *prev; 


assert(table); 
assert(key); 
{search table for key 128) 
if (p == NULL) { 
NEW(p) ; 
p->key = key; 
p->link = table->buckets[i]; 
table->buckets[i] = p; 
table->length++; 
prev = NULL; 
} else 
prev = p->value; 
p->value = value; 
table->timestamp++; 
return prev; 


} 
Table_put 将 每 个 表 的 两 计数 器 加 1 : 


(fields 126)+= 
int length; 
unsigned timestamp; 
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length JE x f& Poinding 4414 MA A; È dr Table length 3& Ig]: 


(functions 126)+= 
129 int Table length(T table) { 
assert(table); 
return table-»length; 
} 


表格 timestamp 在 每 次 Table_put 或 Table_remove 对 表格 进行 改变 的 时 候 加 1。Timestamp 用 
来 实现 Table_map 必 须 执行 的 可 检查 的 运行 期 错误 : 当 Table_map 正 在 访问 binding 时 ， 表 格 
是 不 允许 被 改变 的 。Table_map 将 timestamp 的 值 保存 在 记录 项 中 ， 每 次 调用 完 apply 后 ,， 它 
将 断言 表格 的 timestamp 值 是 否 仍 等 于 该 保存 值 ， 


(functions 126)+= 
void Table map(T table, 
void apply(const void *key, void **value, void *c1), 
void *cl) { 
int i; 
unsigned stamp; 
struct binding *p; 


assert(table); 
assert(apply); 
stamp = table->timestamp; 
for (i = 0; i < table-»size; i++) 
for (p = table-»buckets[i]; p; p = p-»link) { 
apply(p->key, &p->value, cl); 
assert(table->timestamp == stamp); 


} 
Table_remove 同 样 也 查找 关键 字 ， 但 是 是 通过 一 个 指向 binding 结 构 的 指针 的 指针 来 实现 
的 ,因此 如 果 找 到 了 这 个 关键 字 ， 它 就 可 以 删除 该 关键 字 的 binding 结 构 ; 
(functions 126)+= 
void *Table_remove(T table, const void *key) { 
int i; 
struct binding **pp; 


assert(table); 
assert(key); 
table->timestamp++; 


i = (*table->hash) (key)%table->size; 
for (pp = &table-»buckets[i]; *pp; pp = &(*pp)->Tink) 
if ((*table->cmp) (key, (*pp)->key) == 0) { 
struct binding *p = *pp; 
void *value = p-»value; 
*pp = p-»link; 
FREE Cp); 
table-»length--; 
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return value; 


] 
return NULL; 
} 


for 循 环 在 功能 上 等 价 于 <search table for key 128> 中 的 for 循 环 ， 不 同 的 是 pp 指向 的 是 指向 每 
个 关键 字 binding 结 构 的 指针 。pp 开 始 指 向 table->buckets[i ， 上 其 后 沿 着 链表 前 进 ， 当 第 


个 binding 被 检查 完 后 ,pp 则 指向 链表 中 第 上 个 binding 的 link 字 段 ， 如 下 网 所 示 。 


HEEL S 


如 果 *pp 存 有 关键 字 ， 那 么 可 以 通过 将 *pp 赋 值 为 (*pp ) ->link 将 binding 从 链表 中 取出 ; 而 p 
保存 *pp 的 值 。 如 果 Table_remove 找 到 了 需 删 除 的 关键 字 ， 邦 么 它 还 将 表格 的 长 度 减 1 。 


Table_toArray 与 List_toArray 类 似 。 它 分 配 一 个 数组 ,存储 关键 字 - 值 对 ， 以 end 指 针 结 
束 ， 并 通过 访问 table 中 的 每 个 binding 来 填充 数组 : 











(functions 126)+= 
void **Table toArray(T table, void *end) { 
int i, j = 0; 
void **array; 
struct binding *p; 131 
assert(table); 
array = ALLOC((2*table-» length + 1)*sizeof (*array)); 
for (i = 0; i < table-»size; i++) 
for (p = table-»buckets[i]; p; p = p->link) ( 
array[j++] = (void *)p->key; 
array[j++] = p-»value; 


array[j] = end; 
return array; 


} 


P->key 必 须 从 类 型 const void * 转换 成 类 型 void *， 内 为 数组 并 不 是 声明 为 const 的 。 数组 中 关 
键 字 - 值 对 的 次 序 是 任意 的 。 


Table_free 必 须 释放 binding 结 构 和 Table_T 结 构 本 身 。 释 放 binding 结 构 只 有 在 表格 不 为 
空 的 时 候 才 需要 : 


(functions 126)+= 
void Table free(T *table) { 
assert(table && *table); 
if ((*table)->length > 0) { 
int i; 
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struct binding *p, *q; 
for (i = 0; i < (*table)->size; i++) 
for (p = (*table)->buckets[i]; p; p = q) { 


q = p-»link; 
FREE(p); 
} 
} 
FREE(*table) ; 
} 
参考 书目 浅 析 


表格 是 很 有 用 的 一 种 数据 结构 ， 许 多 程序 设计 语言 都 把 它 作为 内 嵌 的 数据 结构 来 使 用 。 
AWK (Aho, Kernighan 和 Weinberger 1988) 是 最 新 的 例子 ， 但 是 在 AWK 之 前 ， 表 格 就 出 现 
在 SNOBOL4 (Griswold 1972 ) 和 SNOBOL4 的 后 继 Icon(Griswold 和 Griswold 1990) 中 。 在 
SNOBOL4 和 Icon 中 的 表格 可 以 保存 任何 类 型 的 值 ， 并 通过 该 值 来 进行 索引 ; 但 是 AWK 的 表 
格 ( 也 称 做 数组 ) 只 能 存储 字符 串 和 数字 类 型 的 数据 ， 并 通过 它们 来 进行 索 3' 。Table 接 口 
的 实现 使 用 了 与 Icon(Griswold 和 Griswold 1986) 中 表格 的 实现 相同 的 技术 。 

PostScript(Adobe Systems 1990), 一 种 页 描述 语言 ， 同 样 也 有 表格 ， 但 是 它 把 表格 称 为 字 
典 。PostScript 的 表格 可 以 用 “和 名字” 来 索引 ， 这 个 “和 名字” 是 PostScript 对 原子 的 另 一 种 叫 
法 , 但 是 可 以 存储 任何 类 型 的 值 ， 包 括 字典 。 

表格 同样 也 出 现在 面向 对 象 的 程序 设计 语言 当中 ， 要 么 作为 内 嵌 的 类 型 ， 要 么 在 程序 库 
中 。SmallTalk 和 Objective-C 中 的 基本 程序 库 就 包括 字典， 非常 类 似 Table 接 口 导 出 的 表格 . 
这 类 对 象 通常 被 称 做 容器 (container ) 对 象 ， 因 为 它们 存 有 其 他 对 象 的 集合 。 

Table 接 口 的 实现 使 用 了 周 定 大 小 的 散 列 表 。 只 要 装填 因子 ( 表 中 填 人 的 记录 数 除 以 散 
列表 的 长 度 ) 适当 的 小 ， 那 么 关键 字 只 需 查 找 很 小 的 一 部 分 记录 就 可 以 找到 。 装 填 因 子 越 大 ， 
其 性 能 就 越 差 。 当 装填 因子 太 大 的 时 候 ， 可 以 通过 扩充 散 列表 而 把 装填 因子 控制 在 合理 的 范 
围 内 ， 比 如 说 5 。 练 习 8.5 就 研究 了 动态 散 列 表 的 一 种 有 效 的 ， 但 是 很 简单 的 实现 ， 它 将 散 列 
表 扩 充 并 重新 计算 所 有 已 存储 记录 的 散 列 值 。Larson(1988) 很 详细 地 描述 了 一 种 更 复杂 的 方 
法 ， 它 的 散 列 表 是 逐渐 扩充 ( 或 缩小 ) 的 ， 一 次 一 个 散 列 链 。Larson 的 方法 中 不 需要 hint， 
并 且 它 可 以 节省 空间 ， 因 为 所 有 表 开 始 的 时 候 都 可 以 很 小 。 








练习 


8.1 对 关联 表 ADT 有 许多 种 可 行 的 实现 方法 。 例 如 ， 在 早期 版 本 的 Table 接 口中 ， 
Table. get 返回 指向 值 的 指针 而 不 是 返回 值 本 身 ， 因 此 客户 调用 程序 可 以 改变 这 些 
值 。 在 设计 中 ， 即 使 表格 中 关键 字 已 经 存在 ，Table_put 也 总 是 往 表格 中 添加 一 个 
新 的 pinding， 并 有 效 地 把 先前 具有 相同 值 的 binding “隐藏 ”起 来 m 
Table_remove 也 只 删除 最 近 的 binding。 但 是 Table_map 可 以 访问 表格 中 所 有 的 
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8.2 


8.3 


8.4 


8.5 


8.6 


8.7 
8.8 
8.9 


binding 。 讨 论 这 些 以 及 其 他 实现 方法 的 优 劣 。 设 计 并 实现 一 个 不 同 的 表格 ADT。 
Table 接 口 的 设计 ， 使 得 可 以 使 用 其 他 数据 结构 来 实现 表格 。 例 如 ， 比 较 函 数 得 到 
了 两 个 关键 字 的 相对 顺序 ， 使 得 它 可 以 用 树 来 实现 。 使 用 二 分 查找 树 或 红 - 黑 树 来 
重新 实现 Table 接 口 。 关 于 这 两 种 数据 结构 的 细节 请 参看 Sedgewick (1990) 。 
Table_map 和 Table_toArray 函数 访问 表格 中 binding 的 顺序 是 不 确定 的 。 假 设 将 接口 
修改 使 得 Table_map 可 以 以 binding 插 人 到 表格 的 顺序 来 访问 它们 ,并 且 Table_Array 
以 相同 的 顺序 返回 数组 。 实 现 这 种 修改 。 这 样 修改 的 实际 好 处 是 什么 ? 
假设 接口 规定 Table_map 和 Table_array 以 排 好 的 顺序 来 访问 binding 。 这 个 规定 会 使 
得 Table 的 实现 变 得 复杂 ,但 是 可 以 简化 诸如 wf 的 客户 调用 程序 对 表格 中 binding 的 
排序 。 讨 论 该 提议 的 优点 并 实现 它 。 提示: 在 当前 的 实现 中 ，Table_put 平 均 情 况 
下 的 运行 时 间 是 常数 ， 而 Table_get 平 均 情 况 下 的 运行 时 间 也 接近 常数 。 那 么 在 你 
修改 后 的 实现 中 ，Table_put 和 Table_get 在 平均 情况 下 的 运行 时 间 又 如 何 呢 ? 
一 且 buckets 已 经 分 配 了 上 了， 那么 它 就 不 能 再 扩充 或 缩小 。 修 改 Table 接 口 的 实现 使 得 
它 可 以 使 用 一 种 探 试 方法 ， 当 关键 字 - 值 对 被 添加 或 删除 时 周期 性 地 调整 buckets 的 
大 小 。 设 计 一 个 测试 程序 ， 测 试 你 这 个 探 试 方法 的 有 效 性 ， 并 度量 它 的 好 处 。 
实现 Larson(1988) 描 述 的 线形 动态 散 列 算法 ， 并 把 它 的 性 能 与 你 前 面 练习 的 答案 进 
行 比 较 。 
修改 wf.c， 使 得 它 可 以 度量 因为 原子 从 不 释放 而 浪费 的 空间 。 
修改 wf.c 的 比较 函数 ， 使 得 它 按 计数 值 的 降序 来 对 数组 进行 排序 。 
修改 wf.c ， 使 得 它 对 每 个 文件 参数 按 文件 名 的 字母 顺序 打印 出 结果 。 做 了 这 种 修改 
后 ， 在 8.2 节 最 开始 给 的 例子 中 ，mem.c 中 的 计数 就 会 出 现在 table.c 的 前 面 。 








第 9 章 & 8 


一 个 集合 (set ) 是 不 同 成 员 的 无 序 聚 集 。 对 集合 的 基本 操作 包括 对 集合 成 员 资格 进行 检 
查 、 增 加 成 员 和 删除 成 员 等 ， 同 时 还 包括 集合 的 并 (union), X (intersection), X 
(difference )， 以 及 对 称 差分 (symmetric difference ) 等 其 他 操作 。 假 如 有 两 个 集合 和 !， 则 
并 操作 s+tt 就 是 包含 5 中 所 有 元 素 和 t 中 所 有 元 素 的 集合 ; 而 交 操 作 s*t 是 s 和 t 中 都 包含 的 元 素 的 
RG; 差 操 作 s-1 则 表示 在 s 中 出 现 但 不 在 1 中 出 现 的 集合 ; 至 于 对 称 差分 操作 ， 它 常常 被 写成 
s/t 的 形式 ， 是 只 在 s 中 或 只 在 1 中 出 现 的 元 素 的 集合 。 

集合 通常 以 域 (universe ) 的 概念 来 描述 一 一 域 即 是 所 有 可 能 的 成 员 的 集合 。 例 如 ， 字 
符 集 的 集合 通常 与 由 256 个 8 比特 字符 代码 组 成 的 域 相 联 系 。 当 域 U 被 定义 后 ， 就 能 存在 s 的 
补 集 ， 即 Us。 

集合 由 Set 接 口 提供 而 不 依赖 于 任何 域 。 该 接口 输出 操作 集合 成 员 的 函数 ， 但 是 从 来 不 
直接 检测 它们 。 同 表 (Table) 接口 一 样 ， Set 接 口 被 设计 成 客户 调用 程序 ， 能 够 提供 对 某 个 
特定 的 集合 里 的 成 员 的 属性 进行 检测 的 函数 功能 。 

应 用 程序 使 用 集合 同 使 用 表格 的 方式 非常 相似 。 事 实 上 ， 出 Set 提供 的 集合 很 像 表 
(table); 集合 成 员 是 关键 字 ， 而 同 这 些 关 键 字 相 关联 的 值 则 被 忽略 。 


9.1 #0 


(set.h= 
#ifndef SET_INCLUDED 
#define SET_INCLUDED 


#define T Set_T 
typedef struct T *T; 


texported functions 138) 
#undef T 
#endif 
出 Set 接 口 导 出 的 功能 被 分 成 四 组 : 分 配 和 释放 、 基 本 的 集合 操作 、 集 合 遍 历 、 接 受 集 
合 的 操作 数 和 返回 诸如 集合 的 并 集 的 新 的 集 合 的 操作 。 前 三 个 功能 同 表 接 口 中 的 功能 很 相似 。 
Set_T 由 下 面 的 代码 分 配 和 释放 。 
(exported functions 138)= 
extern T Set new (int hint, 
int cmp(const void *x, const void *y), 


unsigned hash(const void *x)); 
extern void Set free(T *set); 
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Set_new 分 配 、 初 始 化 并 返回 一 个 新 的 T[。hint 是 对 集合 所 应 该 包 合 的 成 员 数 目的 一 个 佑 
ib: 精确 的 hint 值 虽然 能 够 改善 性 能 ,但 是 任何 非 负 的 值 也 是 合理 的 。cmp 和 hash 用 于 比较 
两 个 成 员 并 映射 到 无 符号 整 型 数 上 。 假 定 有 两 个 成 员 x 和 y, cmp (Guy ) 肯定 返回 一 个 大 于 、 
小 于 或 者 等 于 零 的 整数 ， 分 别 对 应 于 x 大 于 y、 x 小 于 y 和 x 等 十 y 三 种 情况 。 如 果 cmp (x,y ) 是 
F, 则 x 和 y 只 有 其 中 之 一 会 显示 在 集合 中 hash (x) 也 一 定 等 于 hash (y)。Set_new 可 以 引 
发 异常 Mem_Failed 。 

如 果 cmp EF 函数 指针 ， 则 成 员 被 认为 是 原子 ; 如 果 x*=y， 则 两 个 成 员 x 和 y 被 认为 是 一 臻 
的 。 否 则 ， 如 果 hash 是 空 函数 指针 ， 那 么 Set_new 将 提供 一 个 hash 函 数 以 适应 于 原子 (atom )。 

Set M xset ， 并 给 它 分 配 一 个 空 指针 。Set_free 不 释放 成 员 ; Set_map 可 以 释放 成 
员 。 把 一 个 空 的 set 或 者 xset 传 递 给 Set_free 会 产生 可 检查 的 运行 期 错误 。 

eka orn PR IR : 


(exported functions 138) 
extern int Set length(T set); 
extern int Set member(T set, const void *member); 
extern void Set put (T set, const void *member); 
extern void *Set remove(T set, const void *member); 


Set_length 返 回 集合 set 的 底数 (cardinality )， 或 者 返回 它 所 包含 的 成 员 数 Set member 
返回 1 或 0， 如 果 成 员 在 集合 里 面 则 返回 1 ， 如 果 不 在 ， 则 返回 0。Set_put 将 向 集合 添加 一 个 
BA, RAPA MAC AE; Set_put 可 以 引发 Mem_failed 。 如 果 集 合 包含 某 成 员 ， 则 
Set_remove 可 以 从 集合 里 面 删除 该 成 员 ， 并 且 返 回 被 删除 的 成 员 ( 其 指针 可 能 不 同 于 原先 指 
向 该 成 员 的 指针 )。 和 否则 ，Set_remove 不 进行 任何 操作 ， 且 返回 值 为 0。 试 图 将 一 个 空 的 集合 
或 者 空 成 员 传递 给 上 述 这 些 例 程 中 的 任何 一 个 都 将 会 产生 可 检查 的 运行 期 错误 。 

下 面 的 函数 能 够 访问 一 个 集合 中 的 所 有 成 员 : 


(exported functions 138)+= 
extern void Set map (T set, 
void apply(const void *member, void *cl), void *c15; 
extern void **Set toArray(T set, void *end); 


Set. map] R frset i f Tak UAB VS HI apply 函数 。 它 把 成 员 和 由 客户 调用 程序 定义 的 
指针 cl 传递 给 apply 。 但 是 它 并 不 检查 cl。 值 得 注意 的 是 ， 与 Table_map KiE], apply FRE RÆ 
存储 在 集合 中 的 成 员 。 把 一 个 空 apply 函数 或 者 空 集 传递 给 Set_map 和 apply ， 通 过 调用 
Set_put 或 Set_remove 来 改变 set 都 将 会 产生 可 检查 的 运行 期 错误 。 

Set_toArray 返 回 一 个 N+1 个 元 素 的 数组 ， 该 数组 以 任意 的 顺序 存放 着 N 个 集合 元 素 . 
通常 是 一 个 空 指针 ， 它 的 值 就 是 数组 中 第 N+1 个 元 素 的 值 。Set_toArray 可 以 引发 异常 
Mem_Failed 。 客 户 调用 程序 必须 释放 返回 的 数组 。 把 一 个 空 的 set 传 递 给 Set_toArray 会 产生 
可 检查 的 运行 期 错误 。 

F5 EE. 
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(exported functions 138)+= 
extern T Set union(T s, T t); 
extern T Set inter(T s, T t); 
extern T Set minus(T s, T t); 
extern T Set diff (T s, T t); 


执行 的 是 在 本 章 开 始 部 分 描述 的 四 种 集合 操作 。Set_union 3&[i]set, Set inter 返回 sxt， 
Set_minus 返 回 s-t，Set_diff 返 回 s/t。 这 四 种 函数 都 能 创建 和 返回 新 的 T， 也 都 可 能 引发 异常 
Mem_Failed 。 它 们 把 s 或 者 t 当 作 空 的 集合 ,但 总 返回 一 个 新 的 、 非 空 的 T。 因 此 ，Set_union 
(s, NULE ) FGREISÉ A Ef- 如 果 s Ft AB OW aS , xk s 和 t 都 为 非 空 却 有 不 同 的 比较 和 
散 列 函数 时 ， 每 个 函数 都 会 产生 可 检查 的 运行 期 错误 也 就 是 说 ，s 和 t 必 须 通 过 调用 定义 了 
相同 的 比较 和 散 列 函数 后 的 Set_new 函 数 来 创建 。 


9.2 实例 : 交叉 引用 列表 


xref 打 印 在 其 输入 文件 中 的 标识 符 的 交叉 引用 列表 (cross-reference list ), 这 有 助 于 多 方 
面 的 使 用 ， 如 寻找 在 一 个 程序 源 文件 中 的 所 有 特定 标识 符 。 例 如 下 例 


% xref xref.c getword.c 


FILE getword.c: 6 
xref.c: 18 43 72 


c getword.c: 7 8 9 10 11 16 19 22 27 34 35 
xref.c: 141 142 144 147 148 


上 面 i 地 说 明 FILE 在 getword.c 文 件 的 第 6 行 和 xref.c 文 件 的 第 18 、43 、72 行 中 被 用 到 。 
类 似 地 ， 现在 getword.c 中 11 个 不 同 的 地 方 。 其 中 每 行 只 显示 一 次 ， 即 使 是 同一 行 出 现 了 
多 个 相间 的 标识 符 也 是 这 样 。 输 出 时 则 按 顺序 列 出 了 文件 和 行 号 。 

如 果 没 有 程序 参数 ， xref 会 将 一 个 标识 符 的 交叉 引用 列表 发 送 到 一 个 标准 输入 上 ,， 但 将 
会 忽略 上 面 输出 实例 中 的 文件 名 : 

% cat xref.c getword.c | xref 


FILE 18 43 72 157 


c - 141 142 144 147 148 158 159 160 161 162 167 170 173 178 
185 186. 


xref 的 实现 ; 会 显示 集合 和 表 在 一 起 是 如 何 使 用 的 。 它 建立 了 一 个 由 标识 符 索 引 的 表 ， 
表 中 每 个 相关 联 的 值 都 是 另 一 个 由 文件 名 索引 的 表 。 该 表 中 的 值 是 一 整 型 指针 集合 ， 指 向 文 
件 的 行 号 。 图 9-1 描 述 了 这 种 结构 并 显示 了 标识 符 FILE 的 细节 ， 如 上 面 所 描述 的 那样 。 在 单 
个 顶级 表 (top-level table ) ( 它 是 下 面 代码 中 identifiers 的 值 ) 中 与 FILE 相 关联 的 值 是 第 二 级 
Table_T， 它 带 有 两 个 关键 字 : getword.c 的 原子 和 xref.c 的 原子 。 与 这 些 关 键 字 相 关联 的 是 
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Set T， 它 们 含有 FILE 所 出 现 的 行 号 的 指针 。 顶 级 表 中 的 每 个 标识 符 都 有 第 二 级 表 ， 第 二 级 
表 中 的 每 个 关键 字 - 值 对 都 有 一 个 集合 。 


identifiers 











根据 文件 名 索引 的 表 
( 多 个 Table T ) 





根据 标识 符 索 引 的 表 指向 整形 数 的 指针 集合 
( — Table T ) (多 个 Set_T) 


图 9-1 交叉 引用 列表 的 数据 结构 


(xref.cys 
(xref includes 142) 
(xref prototypes 143) 
(xref data 146) 
(xref functions 142) 


xref 的 main 函数 很 像 wt 的 main pe; 它 创 建 标识 符 的 表 ， 然 后 处 理 它 的 文件 名 参数 。 它 
能 打开 每 个 文件 ， 并 用 文件 指针 、 文 件 名 和 标识 符 表 来 调用 函数 xref。 如 果 没 有 参数 ， 将 用 
一 个 空 指针 、 标 准 输入 的 文件 指针 和 标识 符 表 来 调用 xref : 


(xref functions 142)= 
int main(int argc, char *argv[]) { 
int i; 
Table T identifiers = Table,new(0, NULL, NULL); 


for (i = 1; i < argc; i++) { 
FILE *fp = fopen(argv(i], "r"); 
if (fp == NULL) { 
fprintf(stderr, "Xs: can't open 'Xs' (%s)\n", 
argv[0], argv[i], strerror(errno)); 
return EXIT FAILURE; 


} else 1 
xref(argv[i], fp, identifiers); 
fclose(fp); 

} 


} 

if (argc == 1) xref(NULL, stdin, identifiers); 
(print the identifiers 143) 

return EXIT. SUCCESS; 
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(xref includes 142) 
#include <stdio.h> 
#include <stdlib.h> 
#include <errno.h> 
#include "table.h" 


xref 建 立 了 一 个 复杂 的 数据 结构 ,但 当 通 过 搜索 数据 结构 中 的 组 件 来 第 一 次 检查 怎样 打 


印 它 的 内 容 时 ， 会 更 容易 理解 它 是 怎样 建立 的 。 为 每 个 组 件 分 块 或 者 分 别 写 函 数 将 有 助 于 理 


解 过 程 的 细节 。 
第 一 步 ， 建 立 一 个 标识 符 数组 ， 赋 值 并 按 升序 排列 ， 然 后 通过 另 一 个 函数 print 来 逐步 输 
出 数组 ， 并 处理 其 值 。 这 一 步 很 像 wf 的 代码 块 <print the words 123», 


(print the identifiers 143)= 


{ 
int i; 
void **array = Table_toArray (identifiers, NULL); 
qsort(array, Table. length(identifiers), 
2*sizeof (*array), compare); 
for (i = 0; array[i]; i += 2) 1 
printf("9Xs", (char *)array[i]); 
print(array[i+1]); 
FREE (array); 
} 


identifiers 的 关键 字 是 原子 (atom), ATLL, 传递 给 标准 库 函 数 qsort 的 比较 函数 compare 
将 与 在 wf 中 使 用 的 compare 一 致 ， 并 使 用 stremp 比较 标识 符 对 (8.2 节 中 对 gsort 的 定义 解释 了 
qsort 的 参数 ): 
(xref functions 142)+= 
int compare(const void *x, const void *y) { 


return stremp(*(char **)x, *(char **)y); 


} 


(xref includes 142)+= 
#include <string.h> 


(xref prototypes 142)= 
int compare(const void *x, const void *y); 


identifiers 中 的 每 一 个 值 都 是 另外 一 个 表 , 该 值 被 传递 给 print 函 数 。 对 文件 名 来 说 这 个 
表 的 关键 字 是 康子， 因此， 它们 可 以 通过 与 上 述 代 码 相 似 的 代码 实现 在 数组 中 捕获 、 排 序 、 
来 回 移动 等 。 
(xref functions 142)+= 
void print(Table_T files) { 
int i; 
void **array = Table toArray(files, NULL); 


106 ZOE 


qsort(array, Table_length(files), 2*sizeof (*array), 


compare); 
for (i = 0; array[i]; i += 2) { 
if (*(char *)array[i] != '\0') 


printf("\t%s:", (char *)array[i]); 
(print the line numbers in the set array[i+1] 144) 
printfC"\n"); 


} 
FREE(array); 


} 


(xref prototypes 143)+= 
void print(Table_T); 


print 可 以 使 用 compare ， 因 为 关键 字 都 是 字符 品 。 如 果 没 有 文件 名 参数 ， 则 传递 给 print 
的 每 一 个 表 将 只 有 一 个 人 口 ， 并 且 关 键 字 是 一 个 零 长 度 的 原子 。print 用 这 种 约定 来 避免 在 输 
出 行 号 列表 之 前 打印 文件 名 。 
| 表 中 每 个 值 都 被 传递 给 print， 它 们 是 一 些 行 号 的 集合 。 因 为 Set 实 现 了 指针 集合 ，xref 通 
过 整 型 指针 来 表示 行 号 并 把 该 指针 加 入 到 集合 中 。 为 了 打印 它们 ， 将 调用 Set_toArray 函 数 来 
建立 和 返回 带 有 整 型 指针 的 以 空 字符 作为 结束 符 的 数组 ; 然后 给 数组 排序 并 打印 这 些 整 数 . 


(print the line numbers in the set array[i+1] 144)» 


{ 

int j; 

void **lines = Set_toArray(array[i+1], NULL); 

qsort(lines, Set_length(array[i+1]), sizeof (*lines), 
cmpint); 

for (j = 0; lines[j]; j++) 
printf(" 9d", *(int *)lines[j]); 

FREEClines); 


cmpint 同 compare 相 似 ， 但 是 它 含 有 两 个 指向 整 型 指针 的 指针 ， 并 比较 这 两 个 整数 ; 


(xref functions 142)+= 
int cmpint(const void *x, const void *y) { 

if (**(int **)x < **(int **)y) 
return -1; 

else if (**(int **)x » **(int **)y) 
return +1; 

else 
return 0; 


} 


(xref prototypes 143)+= 
int cmpint(const void *x, const void *y); 


xref 建 立 了 两 个 数据 结构 ， 该 数据 结构 由 刚刚 讨论 的 代码 输出 。 它 用 getword 读 取 输 入 的 
标识 符 。 对 每 一 个 标识 符 ， 它 使 用 适当 的 数据 结构 形成 集合 并 把 当前 的 行 号 加 入 到 集合 中 ， 
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(xref functions 142)+= 
void xref(const char *name, FILE *fp, 
Table. T identifiers)( 
char buf[128]; 


if (name == NULL) 
name = ""; 
name = Atom string(name); 
linenum = 1; 
while (getword(fp, buf, sizeof buf, first, rest)) { 
Set_T set; 
Table_T files; 
const char *id = Atom_string(buf); 
(files c file table in identifiers associated with id 147) 
(set ¢ set in files associated with name 147) 
(add linenum to set, if necessary 148) 


} 


(xref includes 142) 
#include "atom.h" 
#include "set.h" 
#include "mem.h" 
#include "getword.h" 


(xref prototypes 143)+= 
void xref(const char *, FILE *, Table T); 


linenum 是 一 个 全 局 变量 ， 无 论 何 时 first 扫 描 完 一 行 字符 ，linenum 都 将 增加 ; first 是 一 
个 函数 ， 它 被 传递 给 getword 以 识别 在 标识 符 中 的 初始 字符 。 


(xref data 146)» 
int linenum; 


(xref functions 142)» 
int firstCint c) 1 
if (c == '\n') 
Tinenum++; 
return isalpha(c) || c == '_': 


} 


int rest(int c) { 
return isalpha(c) || c == '_' || isdigit(c); 


} 


(xref includes 142)+= 
#include <ctype.h> 


getword 和 传递 给 它 的 first 和 rest 函 数 在 8.2 节 进行 了 描述 。 


(xref prototypes 143)+= 
int first(int c); 
int rest (int c); 
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通过 导航 指向 适当 集合 的 代码 必须 能 处 理 丢失 的 组 件 。 例 如 ， 一 个 标识 符 在 第 一 次 遇 到 
146] 时， 标识 符 在 identifiers 中 将 没有 人 口内 此 ， 代 码 将 创建 文件 表 ， 并 把 标识 符 - 文 件 表 对 添 
加 到 空闲 的 identifiers 中 : 





(files < file table in identifiers associated with id 147)= 
files - Table get(identifiers, id); 
if (files s= NULL) { 
files = Table. new(0, NULL, NULL); 
Table.put(identifiers, id, files); 
} 


同样 地 ， 当 一 个 标识 符 在 一 个 新 文件 中 第 一 次 出 现时 ， 并 没有 行 号 的 集合 ， 因此 一 个 新 
的 集合 将 会 在 第 一 次 需要 它 的 时 候 将 其 创建 和 添加 到 文件 表 中 ; 
(set ¢ set in Files associated with name 147)= 
set - Table get(files, name); 
if (set == NULL) { 


set = Set_new(0, intcmp, inthash); 
Table_put(files, name, set); 





} 
集合 是 整 型 指针 的 集合 ; intemp 和 inthash 比 较 并 对 这 些 整 数 进行 散 列 。intcmp 则 上 面 的 
cmpint 类 似 ， 但 是 它 的 参数 是 集合 中 的 指针 ， 央 此 它 可 以 调用 cmpint 。 整 数 本 身 也 可 以 用 作 
它 自己 的 散 列 数 (hash number ): 





(xref functions 142)+= 
int intcmp(const void *x, const void *y) { 
return cmpint(&x, &y); 
} 


unsigned inthash(const void *x) { 
return *(int *)x; 


} 
(xref prototypes 143)+= 
int intcmp (const void *x, const void *y); 
147 unsigned inthash(const void *x); 


在 控制 到 达 <add linenum to set,if necessary 148> 之 前 ，set 是 当前 行 号 应 该 被 插入 到 的 集 
合 。 由 下 述 代 码 来 完成 : 

int *p; 

NEW(p) ; 

*p = linenum; 

Set put(set, p); 

但 是 如 果 set 已 经 包含 了 iinenum， 上 述 代码 将 产生 一 个 存储 漏洞 (memory leak )， 因 为 
最 新 分 配 的 空间 的 指针 不 会 被 加 入 到 表 中 。 这 个 漏洞 可 以 通过 只 有 jinenum 不 在 set 中 时 才 分 
配 空间 的 措施 来 避免 .: 
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(add linenum to set, if necessary 148)= 


i 
int *p = &linenum; 
if (!Set member(set, p)) { 
NEW(Cp) ; 
*p = linenum; 
Set put(set, p); 
} 
} 
9.3 实现 


Set 的 实现 同 Table 的 实现 很 相似 。 它 用 散 列 表 表 示 集 合 ， 并 且 用 比较 函数 和 散 列 函数 来 
寻找 这 些 表 中 的 成 员 。 下 面 的 例子 探索 了 一 些 可 行 的 集合 实现 和 Table 实 现 。 


(set.O= 
#include <limits.h> 
#include <stddef.h> 
#include "mem.h" 
#include "assert.h" 
#include "arith.h" 
#include "set.h" 
#define T Set_T 
(types 149) 
(static functions 150) 
{functions 149) 


Set_IT 是 一 个 散 列 表 ， 里 面包 含 成 员 ， 


(types 149)= 
struct T ( 
int length; 


unsigned timestamp; 
int (*cmp)(const void *x, const void *y); 
unsigned (*hash)(const void *x); 
int size; 
struct member { 
struct member *link; 
const void *member; 
} **buckets; 


}; 
length 是 集合 中 的 成 员 数 ; timestamp 用 于 检测 Set_map 中 产生 的 可 检查 的 运行 时 错误 ， 
Set_map 禁 止 apply 函 数 改变 集合 ，cmp 和 hash 分 别 含有 比较 函数 和 散 列 函数 。 
同 Table_new 一 样 ，Set_new 为 buckets 数 组 计算 正确 的 元 素数 日 ， 在 size 域 里 存储 元 素数 
目 ， 并 为 结构 T 和 buckets 数 组 分 配 空间 : 


(functions 149y« 
T Set.new(int hint, 
int cmp(const void *x, const void *y), 


X 
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unsigned hash(const void *x)) { 
T set; 
int i; 
static int primes[] = { 509, 509, 1021, 2053, 4093, 
8191, 16381, 32771, 65521, INT MAX }; 
assert(hint >= 0); 
for (i = 1; primes[i] < hint; i++) 
set = ALLOC(sizeof (*set) + 
primes[i-1]*sizeof (set->buckets[0])); 
set->size = primes[i-1]; 
set->cmp = cmp ? cmp : cmpatom; 
set->hash = hash ? hash : hashatom; 
set->buckets = (struct member **)(set + 1); 
for (i = 0; i < set-»size; i++) 
set->buckets[i] = NULL; 
set->length = 0; 
set->timestamp = 0; 
return set; 
} 


Set_new 用 hint 为 buckets 中 的 元 素数 目 ( 见 8.3 相 关 定 义 ) 在 prime 中 选择 一 个 值 。 如 果 成 
员 是 由 cmp 或 hash 的 空 函 数 指针 来 说 明 的 原子 ， 则 Set_new 使 用 下 面 的 比较 和 和 散 列 函数 ， 在 
Table_new 中 也 使 用 相同 的 函数 。 
(static functions 150)= 
static int cmpatom(const void *x, const void *y) { 


return x != y; 


} 


static unsigned hashatom(const void *x) { 
return (unsigned long)x>>2: 


} 
9.3.1 成 员 操作 


对 成 员 进行 测试 就 像 在 一 个 表 中 查询 一 个 关键 字 : 散 列 潜在 的 成 员 ， 并 搜寻 从 buckets 中 
发 出 的 适 当 的 列表 : 


(functions 149)+= 
int Set member(T set, const void *member) { 
int i; 
struct member *p; 


assert(set); 
assert(member) ; 
150 (search set for member 151) 


return p != NULL; 


E: A lll 


(search set for member 151)= 
i = (*set->hash) (member) %set->size; 
for (p = set-»buckets[i]; p; p = p->link) 
if ((*set->cmp) (member, p->member) == 0) 
break; 


如 果 搜 索 成 功 则 p 非 空 ， 否 则 pP 为 空 ， 因 此 ， 对 p 的 测试 决定 着 Set_member 的 输出 。 
添加 一 个 新 的 成 员 与 此 类 似 : 为 成 员 搜寻 集合 ， 如 果 搜 索 失 败 则 把 它 加 进去 。 


(functions 149)+= 
void Set put(T set, const void *member) { 
int i; 
struct member *p; 





assert(set); 
assert(member); 
(search set for member 151) 
if (p == NULL) (1 

(add member to set 151) 
} else 

p-»member - member; 
set->timestamp++; 


} 


(add member to set 151)= 
NEW(p) ; 
p->member = member; 
p->link = set->buckets[i]; 
set->buckets[i] = p; 
set->length++; 


timestamp FA ££ Set_map 中 来 执行 可 检查 的 运行 期 错误 。 

Set_remove 通 过 将 一 个 指向 成 员 结构 的 指针 的 指针 pp 移动 到 适当 的 散 列 链 的 方法 来 删除 
AA, 直到 *pp 为 空 或 (*pp ) ->member 是 相关 的 成 员 为 小 ， 在 这 种 情况 下 ， 下 面 的 分 配 
*pp = (*pp) ->link 将 从 链 中 删除 该 结构 。 i51 


(functions 1494 
void *Set remove(T set, const void *member) { 
int i; 
struct member **pp; 


assert(set); 
assert(member); 
set->timestamp++; 
i = (*set->hash) (member)%set->size: 
for (pp = &set->buckets[i]; *pp; pp = &(*pp)-»link) 
if C((*set->cmp) (member, (*pp)->member) == 0) { 
struct member *p = *pp; 
*pp = p-»link; 
member = p-»member; 
FREE (p); 
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set-»length--; 
return (void *)member; 
} 
return NULL; 
} 


将 pp 移 到 散 列 链 与 Table_remove 中 的 方式 相同 。 请 参见 8.3 节 实现 部 分 的 相应 定义 。 
Set_remove 和 Set_put 通 过 增加 或 减少 length 域 来 跟踪 集合 中 的 成 员 数 ， 其 中 length 是 由 
Set_length 返 回 的 。 


(functions 149) 
int Set length(T set) { 
assert(set); 
return set-»length; 


} 
如 果 集 合 非 空 ，Set_free 首 先 必须 在 用 散 列 链 中 释放 集合 本 身 ， 并 在 清除 *Set 之 前 释放 
成 员 结构 。 


(functions 149) 
void Set free(3 *set) { 
assert(set && *set); 
if (Cset)-»length > 0) { 
int i; 
struct member *p, *q; 
for (120; i < (*set)->size: i++) 
for (p = (*set)-»buckets[i]; P; p=q) { 
q = p-»link; 
FREE (p); 
} 
} 
FREE(*set); 
} 


Set_map 几乎 与 Table_map 结 构 一 致 ， 它 通过 调用 apply BAIN ANS BHA HE, 


(functions 149)+= 
void Set map(T set, 
void apply(const void *member, void *cl), void *c1) 1 
int i; 
unsigned stamp; 
struct member *p; 


assert(set); 
assert(apply); 
stamp = set->timestamp; 
for (i = 0; i < set->size; j++) 
for (p = set->buckets[i]; p; p = p->link) { 
apply(p->member, cl); 
assert(set->timestamp == stamp); 
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不 同 的 一 点 是 Set_map 传 递 给 apply 的 是 每 个 成 员 ， 而 不 是 每 个 成 员 的 指针 ， 央 此 ， 
apply 不 能 改变 集合 中 的 指针 。 然 而 ， 它 可 以 用 强制 类 型 转换 (cast ) 来 改变 这 些 成 员 所 指向 
的 值 ， 但 这 修改 了 集合 的 语义 。 

Set toArray 比 Table_toArray 更 简单 ; 同 List_toArray 类 似 ，Set_toArray 分 配 一 个 数组 并 


仅仅 把 成 员 拷 贝 进去 。 


(functions 149) 
void **Set toArray(T set, void *end) { 
int i, j = 0; 
void **array; 
struct member *p; 


assert(set); 
array = ALLOC(Cset-» length + 1)*sizeof (*array)); 
for (i = 0; i < set->size; i++) 
for (p = set-»buckets[i]; p; p = p-»link) 
array[j++] = (void *)p->member; 
array[j] = end; 
return array; 


} 
p->member47i Mconst void* 变 为 void* ， 因 为 数组 没有 被 声明 为 常量 。 
9.3. 集合 操作 


所 有 四 种 集合 操作 都 有 相似 的 实现 。 例 如 ，s+t 是 通过 把 s 和 t 的 每 个 元 素 加 入 到 一 个 新 的 
集合 中 来 实现 的 ， 其 做 法 可 以 是 先 复制 s ， 然 后 如 果 t 有 成 员 不 在 s 的 副 木 中 ， 再 把 t 的 该 成 员 
加 入 到 该 副本 里 面 即 可 : 


(functions 149)+= 
T Set union(T s, T t) ( 

if (s == NULL) ( 
assert(t); 
return copy(t, t->size); 

} else if (t == NULL) 
return copy(s, s-»size); 

else ( 
T set = copy(s, Arith max(s-»size, t-»size)); 
assert(s-»cmp == t->cmp && s->hash == t->hash); 
{ (for each member q in t 154) 

Set put(set, q->member); 

j 
return set; 


} 


(for each member q in t 154)= 


int i; 
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struct member *q; 
for (120; i < t-»size; i++) 
for (q = t-»buckets[i]; q; q = q->link) 


内 部 函数 copy 返 回 它 的 参数 的 一 个 副本 ， 其 中 该 参数 必须 是 非 空 的 。 


(static functions 150)+= 
static T copy(T t, int hint) { 
T set; 


assert(t); 
set = Set new(hint, t->cmp, t->hash); 
{ (for each member q in t 154) 

(add q-»member to set 155) 


H 
return set; 

} 

(add q->member to set 155)= 

{ 
struct member *p; 
const void *member = q-»member; 
int i = (*set->hash) (member)Xset-»size; 
(add member to set 151) 

} 


Set union 和 copy 都 有 权 访 问 特权 信息 : 它们 知道 集合 的 表示 方法 ， 因此 可 以 通过 把 适当 
的 hint 传 递 给 Set_new 的 方法 来 为 一 个 新 的 集合 定义 散 列表 的 大 小 。 在 复制 时 ，Set_union 提 
供 了 一 个 hint; 它 使 用 和 t+ 中 较 大 的 那个 散 列 表 的 大 小 ， 因 为 作为 结果 的 集合 将 至 少 有 与 
Set_union 的 最 大 参数 相等 的 成 员 数 。copy 可 以 调用 Set_put 来 把 每 个 成 员 添 加 到 副本 中 去 ， 
但 是 它 通常 使 用 <add q—>member to set 155> 来 直接 添加 成 员 ， 从 而 避免 了 Set_put 的 没有 结 
果 的 搜索 。 

交 s*t 用 s 和 t 中 较 小 的 散 列表 创建 了 一 个 新 的 集合 ， 并 只 把 在 s 和 t 中 都 出 现 的 元 素 加 到 这 

个 新 的 集合 中 : 


(functions 149)4+= 
T Set inter(T s, T t) ( 

if (s == NULL) { 
assert(t); 
return Set new(t-»size, t->cmp, t->hash): 

] else if (t == NULL) 
return Set new(s-»size, s-»cmp, s->hash); 

else if (s-»length < t-» length) 
return Set inter(t, s); 

else 1 
T set = Set new(Arith min(s-»size, t->size), 

s->cmp, s->hash); 

assert(s->cmp == t->cmp && s->hash == t->hash); 
{ (for each member q in t 154) 
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if (Set member(s, q-»member)) 
(add q-»member to set 155) 
} 


return set; 


} 
如 果 s 比 { 成 员 数 少 ， 则 Set_inter 调 用 自己 并 且 交换 s 和 t。 这 将 导致 代码 块 最 后 是 在 较 小 的 
一 个 集合 里 进行 交集 运算 循环 。 
差 s 二 创建 一 个 新 的 集合 并 把 在 s 中 但 不 在 t 中 的 成 员 添 加 到 里 面 。 下 述 代 码 将 交换 参数 名 ， 
从 而 能 够 使 用 代码 块 <for each member q in t 154» 3€ f MUFF HEU - 


(functions 14942 
T Set minus(T t, T s) { 

if (t == NULL){ 
assert(s); 
return Set new(s-»-size, s-»cmp, s->hash); 

} else if (s == NULL) 
return copy(t, t->size); 

else { 
T set = Set new(Arith min(s-»size, t->size), 

s->cmp, s->hash); 
assert(s->cmp == t->cmp && s->hash == t->hash); 
{ (for each member q in t 154) 
if (!Set member(s, q->member)) 
(add q-»member to set 155) 
H 


return set; 


} 

对 称 差 分 s /t， 是 只 在 8 或 只 在 t 中 含有 的 元 素 的 集合 。 如 果 s 或 (为 空 ， 则 s tw Esmee, 
否则 ，s /t 等 于 (s-t) + (t-s )， 可 以 通过 下 述 方法 来 完成 : 先 忽 略 s ， 把 t 中 没有 的 所 有 元 素 
加 到 新 的 集合 中 ， 然 后 再 忽略 {， 将 s 中 没有 的 所 有 元 素 加 到 新 的 集合 中 。 代 码 块 <for each 
member q in t 154> 用 于 在 互相 传递 时 交换 s 和 t 的 值 : 


(functions 149)+= 
T Set diff(T s, T t) { 
if (s == NULL) { 
assert(t); 
return copy(t, t->size); 
) else if (t == NULL) 
return copy(s, s->size); 
else { 
T set = Set new(Arith min(s-»size, t->size), 
S-»cmp, s->hash); 
assert(s-»cmp == t-»cmp && s->hash == t-»hash); 
{ (for each member q in t 154) 
if (!Set member(s, q-»member)) 
(add q-»member to set 155) 
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} 
{Tu=t; t=5; s =u; } 
{ (for each member q in t 154) 
if (!Set member(s, q-»member)) 
(add q-»member to set 155) 


return set; 


有 关 这 四 个 操作 的 更 有 效 的 实现 也 是 可 能 的 ; 其 中 一 些 会 在 练习 中 探讨 。 一 个 特殊 的 情 
次 是 s 和 t 中 的 散 列 表 大 小 相等 ， 这 可 能 对 某 些 应 用 很 有 用 ， 请 参见 练习 9.7 。 


参考 书目 浅 析 


由 Set 输 出 的 集合 被 应 用 到 Icon 中 的 集合 上 〈Griswold and Griswold 1990 )， 实 现 也 同 
Icon 的 相似 (Griswold and Griswold 1986 )。 位 向 量 通常 用 于 代表 固定 的 、 小 的 域 集合 ; 第 
13 章 将 描述 使 用 该 方法 的 接口 。 

Icon 是 把 集合 作为 内 髓 数据 类 型 的 为 数 不 多 的 语言 之 一 。 集 合 在 SETL 中 是 主要 的 数据 
类 型 ， 并 且 大 部 分 操作 和 控制 结构 都 被 设计 成 能 处 理 集合 。 


练习 


9.1 
9.2 
9.3 


9.4 


9.5 


9.6 


9.7 


FaTable S: Set 。 

FaSet 3: Xu Table , . 

Set 和 Table 的 实现 有 很 多 共同 点 。 设 计 并 实现 一 个 第 三 类 接口 ， 使 之 能 体现 它们 的 
共同 属性 。 该 接口 的 目的 是 使 ADT 具 有 像 Set 和 Table 那 样 的 执行 能 四。 用 新 的 接口 
再 次 实现 Set 和 Table 。 

为 包 (bag) 设计 一 个 接口 。 包 类 似 于 一 个 集合 ， 但 是 其 成 员 可 以 显示 一 次 或 多 
次 ; 例如 ，(1 2 3} 是 一 组 整数 ， 而 [1 1 2 2 3j 是 一 整数 包 。 用 先前 练习 中 设计 的 支 
持 接口 实现 该 接口 。 

copy 复 制 了 集合 的 参数 ， 每 次 复制 一 个 成 员 。 既 然 知道 备份 中 的 成 员 的 个 数 ， 就 能 
够 一 次 分 配 所 有 的 member 结 构 ， 然后 一 小 部 分 一 小 部 分 发 送 到 适当 的 散 列 链 中 ， 
直到 完成 整个 备份 。 执 行 这 个 方案 并 度量 它 的 优点 。 

一 些 集 合 操作 可 能 通过 下 述 方法 变 得 更 有 效 ， 把 散 列 值 存放 在 member 结 构 中 ， 以 
便 只 为 每 个 成 员 调 用 一 次 hash 函数, 并 只 有 在 散 列 数值 相等 的 时 候 才 调用 比较 函数 。 
分 析 此 法 所 带 来 的 好 处 ， 执 行程 序 并 分 析 结 果 。 

如 果 s 和 t 有 相同 的 buckets 数 ，s+tt 等 于 某 个 子 集 的 集合 ， 其 中 该 子 集 的 成 员 都 在 同 
一 个 散 列 链 中 。 也 就 是 说 ，s+! 中 每 个 散 列 链 都 是 在 s 和 t 的 相应 的 散 列 链 中 的 元 素 
的 集合 。 这 种 情况 会 经 常 发 生 ， 内 为 有 很 多 应 用 ， 无 论 它 们 何 时 调用 Set_new ， 都 
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定义 相同 的 hint 。 改 变 5 + f. s * or. s 一 t+ 和 s/t 的 实现 以 检查 上 述 情况 ， 并 使 用 适当 
的 、 更 简单 有 效 的 方法 来 实现 。 
如 朵 连续 几 行 都 出 现 了 同一 标识 符 ，xref 将 会 输出 每 个 行 号 。 例 如 : 


C getword.c: 7 8 9 10 11 16 19 22 27 34 35 
修改 xref.c ， 用 行 的 范围 来 代替 连续 的 两 行 或 者 更 多 行 ; 
C getword.c: 7-11 16 19 22 27 34-35 


xref 分 配 了 许多 内 存 ， 但 是 只 释放 了 由 Table_toArray 创 建 的 内 存 数组 。 修 改 xref , 
使 之 能 够 最 终 释 放 由 它 分 配 的 所 有 内 存 ( 当然 要 除去 原子 )。 采 取 在 打印 数据 结构 
时 递增 的 方法 实现 上 述 情况 是 最 容易 的 。 使 用 解决 练习 5.5 的 方法 来 检查 是 否 释放 
了 所 有 的 内 存 。 | 


9.10 请 解释 为 什么 mpint 和 intcmp 采 用 直接 比较 的 方法 来 比较 整数 而 不 是 返回 它们 相 


减 的 结果 。 也 就 是 说 ， 下 述 代码 哪里 有 问题 ( 显然 非常 简单 ) ”是否 是 cmpint 的 
版 本 问题 ? 
int cmpint(const void *x, const void *y) { 


return **(int **)x - **(int **)y; 


} 


第 10 章 动态 数组 


数组 (array ) 是 有 关 值 的 同 构 序 列 ， 序 列 里 面 的 元 素 同 相 邻 连续 范围 的 索引 是 一 一 对 应 
的 。 在 实际 的 编程 语言 中 ， 某 些 形 式 的 数组 是 作为 内 和 能 数据 类 型 来 显示 的 。 在 一 些 语言 中 ， 
如 C， 所 有 的 数组 索引 具有 相同 的 下 限 (lower bound )， 而 在 其 他 语言 中 ， 如 Modula-3 ， 每 
个 数组 都 有 自己 的 范围 。 在 C 中 ， 所 有 数组 的 索引 都 是 从 零 开 始 的 。 

数组 的 大 小 要 么 在 编译 时 定义 ， 要 么 在 运行 时 定义 。 静 态 数组 的 大 小 当然 是 在 编译 时 定 
义 。 例 如 ， 在 C 中 ， 已 声明 的 数组 在 编译 时 必须 要 具有 长 度 ; 即 在 声明 数组 int [n] 时 ，n 必 须 
固定 ; 静态 数组 也 可 以 在 运行 时 定义 ， 例 如 局 部 数组 就 是 在 运行 时 通过 调用 显示 它们 的 函数 
被 分 配 的 ， 但 是 数组 的 大 小 必须 在 编译 时 确定 。 

由 Table_toArray 等 函数 返回 的 数组 就 是 动态 数组 N 为 分 配给 它们 的 空间 是 通过 调用 
malloc 或 是 等 价 的 分 配 函数 来 实现 的 。 因 此 ， 它 们 的 长 度 可 以 在 运行 时 确定 。 其 中 一 些 语 言 ， 
如 Modula-3 ， 能 很 好 地 支持 动态 数组 。 可 是 在 C 中 ， 它 们 必须 出 诸如 Table_toArray 这 样 的 函 
数 来 清楚 地 构建 。 

各 种 toArray 函数 显示 了 动态 数组 的 用 途 ; 本 章 中 所 描述 的 Array ADT 提 供 了 一 个 相似 但 
更 一 般 的 工具 。 它 导出 分 配 和 释放 动态 数组 的 函数 ,用 边界 检查 方法 来 访问 它们 并 扩展 或 缩 
减 它们 以 便 能 容纳 更 多 或 者 更 少 的 元 素 。 

本 章 还 描述 了 ArrayRep 接口 。 它 为 少数 需要 更 有 效 地 访问 数组 元 素 的 客户 调用 程序 揭示 
了 动态 数组 的 表示 方法 。 同 时 ，Array 和 ArrayRep 说 明了 两 级 接口 (two-level interface ) 或 
者 分 层 接口 (layered interface )。Array 定 义 了 一 个 数组 ADT 的 高 层 视图 (high-level view ), 
ArrayRep 则 在 较 低 的 层面 上 定义 了 ADT 的 男 外 一 个 更 详细 的 视图 。 这 么 组 织 的 优点 是 通过 导 
入 ArrayRep 能 清楚 地 识别 邦 些 依赖 动态 数组 表示 方法 的 客户 调用 程序 。 表 东方 法 的 改变 只 会 
影响 这 些 客 户 调用 程序 ， 而 不 会 影响 其 他 大 多 数 只 导 人 和 人 Array 的 客户 调用 程序 。 
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下 列 Array ADT 

(array.hys 
#ifndef ARRAY. INCLUDED 
#define ARRAY. INCLUDED 


#define T Array T 
typedef struct T *T; 


(exported functions 162) 


一 
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#undef T 
fendif 


导出 了 对 一 个 N 元 素数 组 进行 操作 的 函数 ， 其 中 的 数组 通过 索引 0 到 N-1 来 访问 。 在 一 个 给 定 
数组 中 ， 每 个 元 素 都 有 固定 的 大 小 ,但 是 不 同 的 数组 ， 人 允许 元 素 具 有 不 同 的 大 小 。Array_T 
由 下 述 代码 来 分 配 和 释放 : 


(exported functions 162)= 
extern T Array new (int length, int size); 
extern void Array free(T *array); 


Array_new 分 配 、 初 始 化 并 返回 一 个 具有 1length 个 元 素 的 新 数组 EMO Slength - 1, 
除非 fength 是 0， 此 时 ， 数 组 中 没有 元 素 。 每 个 元 素 都 占用 size 字 节 的 空间 。 每 个 元 素 的 字 节 
的 初始 值 都 是 0 。size 必 须 包 括 对 齐 可 能 需要 的 填充 任何 元 素 ， 以 便 能 够 通过 分 配 length . size 
个 字 节 来 创建 一 个 确定 的 数组 ， 此 时 ，length 必 须 为 正 。 如 果 length 为 负 或 size 非 正 ， 会 产生 
可 检查 的 运行 期 错误 ，Array_new 可 能 引发 异常 Mem_failed。 

Array_free 释 放 并 清除 *array 。 如 果 array 或 者 xarray 为 空 则 会 产生 可 检查 的 运行 期 错误 。 

与 本 书 中 其 他 大 多 数 建立 空 指针 结构 的 ADT 不 同 ，Atray 接 口 对 于 元 素 的 取 值 没有 任何 
限制 ， 每 个 元 素 都 是 size 字 节 的 序列 。 这 样 设计 的 基本 原理 是 ，Array_T 更 多 地 用 于 建立 其 
他 的 ADT; 第 11 章 中 所 描述 的 队列 就 是 一 个 例子 。 

函数 


(exported functions 162)+= 
extern int Array length(T array); 
extern int Array size (T array); 


返回 array 中 的 元 素 个 数 和 它们 的 大 小 。 
数组 元 素 由 下 述 代 码 来 访问 : 


(exported functions 162)+= 
extern void *Array.get(T array, int i); 
extern void *Array put(T array, int i, void *elem); 


Array_get 返 回 第 i 个 元 素 的 指针 ; 它 同 &a[ 类 似 ， 此 时 假定 a 是 一 个 已 经 定义 了 的 C 语 言 
组 。 客 户 调 用 程序 可 以 通过 由 Array_get 返 回 的 指针 来 访问 元 素 的 值 。 Array_put 用 一 个 由 指针 
elem 指 向 的 新 的 元 素 值 来 覆盖 第 i 个 元 素 的 值 。 不 同 于 Table_put ，Array_put 返 回 值 是 elem 。 它 
不 能 返回 第 个 元 素 先 前 的 值 ， 因 为 该 元 素 没有 所 必需 的 指针 ， 并 且 它 们 长 度 可 以 为 任意 字 节 。 

如 果 i 大 于 或 者 等 于 数组 array 的 长 度 ， 或 者 elem 为 空 ， 会 产生 可 检查 的 运行 期 错误 。 调 
用 Array_get， 然 后 在 废除 由 Array_get 返 回 的 指针 之 前 由 Array_resize 改 变 array 的 长 度 则 会 产 
生 不 可 检查 的 运行 期 错误 。 从 elem 开 始 的 存储 无 论 以 任何 方式 覆盖 array 的 第 i 个 元 素 的 存储 
均 会 产生 不 可 检查 的 运行 期 错误 。 





(exported functions 162) 
extern void Array resize(T array, int length); 
extern T Array.copy (T array, int length); 
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Array_resize 改 变 array 的 大 小 , 以 便 它 能 容纳 length 个 元 素 , 并 在 必要 的 时 候 增 加 或 减少 。 
如 果 length 超 过 了 数组 的 当前 长 度 ， 则 新 的 元 素 被 初始 化 成 0。 调 用 Array_resize 将 使 先前 调 
用 Array_get 所 返回 的 值 变 得 无 效 。Array_copy 与 此 类 似 ， 但 是 它 返 回 的 是 第 一 个 有 length 个 
元 素 的 数组 array 。 如 果 length 超 过 了 array 里 的 元 素 的 个 数 ， 备 份 中 超出 部 分 元 素 的 值 初始 化 
为 0。Array_resize 和 Array_copy 都 可 能 引 发 异常 Mem_Failed 。 

Array 不 具有 和 Table_map 和 Table_toArray 类似 的 功能 ， 因 为 Array_get 已 经 提供 了 必要 
的 机 制 来 完成 等 价 的 操作 。 

在 该 接口 中 ， 把 一 个 空 的 T 传 递 给 任何 函数 都 将 会 产生 可 检查 的 运行 期 错误 。 

ArrayRep 接 口 揭示 了 一 个 描述 符 (descriptor ) 的 指针 是 如 何 表示 一 个 Array TH, Hb, 
描述 符 是 一 个 结构 体 ， 它 的 域 包括 数组 元 素 的 个 数 、 元 素 的 大 小 以 及 存储 数组 的 指针 。 

(arrayrep.h)= 


#ifndef ARRAYREP. INCLUDED 
#define ARRAYREP INCLUDED 


#define T Array. T 


struct T { 
int length; 
int size; 
char *array; 


3; 


extern void ArrayRep. init(T array, int length, 
int size, void *ary); 


#undef T 
#endif 


图 10-1 显 示 了 含有 100 个 整数 的 数组 的 描述 符 ， 该 数组 是 由 机 器 上 的 Array_new (100, 
sizeof int ) 函数 返回 的 ， 每 个 整数 有 四 个 字 节 。 如 果 数 组 中 没有 元 素 ， 则 array 域 为 空 。 数 组 
描述 符 有 时 被 称 为 消息 向 量 (dope vector ), 


length 
size 


array 





图 10-1 HiArray new (100, sizeof int ) 创建 的 Array_T 
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ArrayRep 的 客户 调用 程序 只 能 读 取 一 个 描述 符 的 域 ， 而 不 能 对 其 进行 写 操作 ; 对 它们 进 
行 写 操作 将 会 产生 不 可 检查 的 运行 期 错误 。ArrayRep 保 证 当 array 是 一 个 结构、i 非 久 且 小 
"Farray-»lengthH[, array —»array + i* array ->size 是 元 素 i 的 地 址 。 

ArrayRep 也 输出 ArrayRep_init， 其 中 ArrayRep_init 初 始 化 了 出 array 指 向 的 结构 Array_T 
中 的 域 ， 分 别 给 参数 length 、size 和 ary 赋 值 。 该 泣 数 使 得 客户 调用 程序 能 初始 化 它们 已 经 插 
人 到 其 他 结构 里 的 Array_T。 如 果 array 为 空 、size 非 正 、length 非 零 或 ary 非 空 ， 都 会 产生 可 
检查 的 运行 期 错误 。 使 用 除 调用 Array Rep_init 外 的 其 他 方法 来 初始 化 ， 将 会 产生 不 可 检查 
的 运行 期 错误 。 


10.2 实现 


单个 动态 数组 实现 会 导出 Array 和 ArrayRep 两 个 接口 : 


(array.c)s 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "array.h" 
#include "arrayrep.h" 
#include "mem.h" 


#define T Array_T 


(functions 166) 


如 果 length 为 正 ， 则 Array_new 为 数组 的 描述 符 和 数组 本 身分 配 空 间 ， 并 调用 
ArrayRep_init 来 初始 化 描述 符 : 


(functions 166)= 
T Array new(int length, int size) { 
T array; 


NEW(array); 
if (length » 0) 
ArrayRep init(array, length, size, 
CALLOC(length, size)); 
else 
ArrayRep init(array, length, size, NULL); 
return array; 


} 
ArrayRep_init 是 初始 化 描述 符 的 惟 一 有 效 的 方法 ; 使 用 其 他 方法 分 配 的 描述 符 必 须 调 用 
ArrayRep_init 来 对 它们 进行 初始 化 。 


(functions 166)+= 
void ArrayRep_init(T array, int length, int size, 
void *ary) { 
assert(array); 
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assert(ary && length»0 || length==0 && ary==NULL); 
assert(size » 0); 
array->length = length; 
array->size = size; 
if Clength > 0) 
array->array = ary; 
else 
array->array = NULL; 


} 

通过 调用 ArrayRep_init 来 初始 化 一 个 结构 T 有 助 于 减少 耦合 : 这 些 调用 能 清楚 地 识别 为 
自己 分 配 描述 符 并 因此 依赖 于 该 表示 的 客户 调用 程序 。 只 要 ArrayRep_init 不 改变 ， 可 以 在 不 
影响 这 些 客户 调用 程序 的 情况 下 来 添加 域 。 例 如 ， 当 一 个 识别 序列 号 的 域 被 加 到 结构 T 中 ， 
并 自动 被 ArrayRep_init 初 始 化 时 ， 可 能 会 出 现 这 种 情况 。 

Array_free 释 放 数 组 本 身 和 结构 T， 并 清除 它 的 参数 : 


(functions 166)+= 
void Array free(T *array) { 
assert(array && *array); 
FREECC*array)-»array); 
FREE(*array); 
} 


Array_free 不 用 检查 (*array)->arTay 是 否 为 空 ， 因 为 FREE 接受 空 指针 。 
Array_get 和 Array_put 取 出 并 存储 Array_T 中 的 元 素 : 


(functions 166)+= 
void *Array get(T array, int i) { 
assert(array); 
assert(i >= 0 && i « array-»length); 
return array->array + i*array-»size; 


j 


void *Array put(T array, int i, void *elem) { 
assert(array); 
assert(i >= 0 && i « array-»length); 
assert(elem); 
memcpy(array-»array + i*array->size, elem, 
array->size); 
return elem; 


} 
注意 : Array_put 返 回 它 的 第 三 个 参数 ， 而 不 是 数组 元 素 的 字 节 所 存储 的 地 址 . 
Array_length 和 Array_size 返 回 类 似 的 指定 描述 符 的 域 : 


(functions 166)+= 
int Array length(T array) { 
assert(array); 
return array->length; 
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int Array_size(T array) { 
assert(array); 
return array->size; 


} 


ArrayRep 的 客户 调用 程序 能 够 从 描述 符 中 直接 访问 这 些 域 。 
Array_resize 通 过 调用 Mem 的 RESIZE 来 改变 数组 中 的 元 素 的 个 数 ， 并 相应 地 改变 数组 的 
length 域 。 


(functions 166)+= 
void Array resize(T array, int length) { 
assert(array); 
assert(length >= 0); 
if Carray->length == 0) 
array->array = ALLOC(length*array-»size); 
else if (length > 0) 
RESIZE(array-»array, length*array-»size); 
else 
FREE(array-»array); 
array->length = length; 
} 


不 同 于 使 用 Mem 的 RESIZE ， 零 长 度 是 合法 的 ， 此 时 数组 被 释放 ， 而 描述 符 此 后 将 描述 
一 个 空 的 动态 数组 。 

Array_copy 与 Array_resize 非 常 相似 ， 只 是 Array_copy 把 array 的 描述 符 和 数组 的 一 部 分 
或 者 全 部 复制 下 来 : 


(functions 166)+= 
T Array_copy(T array, int length) { 
T copy; 


assert(array); 
assert(length >= 0); 
copy = Array new(length, array->size); 
if (copy-»length >= array->length 
&& array-»length » 0) 
memcpy (copy->array, array->array, array-»length); 
else if (array-»length > copy-»length 
&& copy-»length » 0) 
memcpy(copy-»array, array->array, copy-»length); 
return copy; 


参考 书目 浅 析 


一 些 语 言 支持 各 种 动态 数组 。 例 如 ，Modula-3 (Nelson 1991) 允许 在 运行 时 建立 任意 
范围 的 数组 , 但 是 不 能 扩展 或 者 缩减 它 。Icon (Griswold and Griswold 1990 ) 中 的 列表 很 像 
能 够 扩展 或 者 缩减 的 数组 ， 其 中 扩展 或 者 缩减 是 通过 在 序列 的 末尾 添加 或 者 删除 元 素来 实现 
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的 ， 这 一 点 非常 像 下 一 章 将 要 描述 的 队列 。Icon 也 支持 从 一 个 列表 中 取出 子 列 表 、 用 不 同 大 
小 的 列表 来 代替 一 个 子 列表 等 操作 。 


练习 


10.1 


10.3 


10.4 


设计 并 实现 一 个 能 提供 关于 指针 的 动态 数组 的 ADT。 它 应 该 能 够 通过 与 Table 提 供 
的 函数 相 类 似 的 函数 对 这 些 数组 的 元 素 进行 安全 访问 。 在 实现 中 使 用 Array 和 


Array. Rep, 
为 一 个 动态 矩阵 ( 即 两 维 数组 ) 设计 一 个 ADT， 并 用 Array 实 现 它 。 看 看 能 否 归纳 
出 设计 N 维 数组 的 方法 ? 


为 一 个 稀 玻 动态 数组 〈 即 数组 中 大 部 分 元 素 的 值 为 零 ) 设计 并 实现 ADT。 设 计 应 
该 能 接受 一 个 特殊 的 零 值 数组 ， 其 实现 只 存储 圭 些 非 零 元 素 。 
把 下 列 函 数 
extern void Array reshape(T array, int length, 

int size); 
加 入 到 array 的 接口 和 它 的 实现 中 。Array_reshape 能 够 分 别 改变 array 数 组 的 长 度 
length 和 元 素 的 大 小 size。 如 同 Array_resize ， 重 新 形成 后 的 数组 保留 原始 数组 的 
前 length 个 元 素 ; 如 果 length 超 过 了 原始 长 度 ， 超 过 部 分 元 素 的 值 设 为 0。array 中 
第 i 个 元 素 成 为 重新 形成 后 的 数组 的 第 i 个 元 素 。 如 果 size 比 原始 长 度 小 ， 则 每 个 元 
素 都 被 截断 ; 如 果 size 比 原始 值 大 ， 则 超出 部 分 的 字 节 被 设 成 0 。 
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一 个 序列 (sequence) 含有 N 个 值 ， 用 从 0 到 N-1 的 整数 索引 ， 其 中 和 N 为 正 数 。 一 个 空 序 
列 不 含有 值 。 同 数组 相似 ， 序 列 中 的 值 可 以 通过 索引 来 访问 ， 也 可 以 在 序列 的 任何 一 端 增 添 
和 删除 值 。 序 列 会 自动 做 必要 的 扩展 以 容纳 它们 的 内 容 。 序 列 的 值 就 是 指针 。 

序列 在 本 书 中 是 最 有 用 的 ADT 之 一 。 尺 管 它 们 的 定义 都 非常 简单 ,但 它们 可 以 用 作 数 
组 、 列 表 、 栈 、 队 列 和 双 端 队列 等 ， 而 且 它们 经 常 具 有 为 数据 结构 分 离 ADT 的 能 力 。 序 列 
可 以 看 做 是 非常 抽象 的 数组 ， 数 组 在 前 面 章节 已 经 讲 过 。 序 列 隐 藏 了 数据 细节 并 在 执行 时 
恢复 其 细节 。 





11.1 接口 


序列 是 一 个 在 Seq 接 口中 定义 的 隐 式 指针 类 型 的 实例 ; 


(seg. h)= 
#ifndef SEQ_INCLUDED 
#define SEQ_INCLUDED 


#define T Seq_T 
typedef struct T *T; 171 


(exported functions 172) 


#undef T 

ftendi f 

把 一 个 空 的 T 传 递 给 该 接口 的 任何 程序 都 会 产生 可 检查 的 运行 期 错误 。 
序列 由 下 面 的 函数 创建 : 


(exported functions 172)= 
extern T Seq new(int hint); 
extern T Seg seq(void *x, ...); 


Seq_new 创 建 并 返回 一 个 空 序列 。hint 是 对 这 个 新 序列 所 容纳 的 最 大 值 的 一 个 估计 。 如 
条 那个 最 大 值 不 确定 ， 则 hint 为 零 ， 并 创建 一 个 较 小 的 序列 。 必 要 时 序列 会 扩展 容量 而 不 管 
hint 的 值 。 如 果 hint 为 负 ， 则 会 产生 可 检查 的 运行 期 错误 。 

Seq_seq 创 建 并 返回 一 个 序列 ， 它 的 初始 化 值 在 它 的 非 穹 指针 参数 中 。 参数 列表 几 第 一 
个 空 指针 来 终止 。 因 此 ， 下 述 代码 


Seq T names; 








names = Seq seq("C", "ML", "C++", "Icon", "AWK", NULL); 
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创建 了 一 个 带 有 五 个 值 的 序列 并 把 它 赋 给 names 。 参 数列 表 中 的 值 与 从 0 到 4 的 索引 相关 联 。 
在 Seq_sedq 的 可 变 参 数列 表 变 量 部 分 传递 的 指针 被 假定 为 空 指 针 ， 央 此 在 传递 字符 型 或 void 
型 以 外 类 型 的 指针 时 ， 程 序 员 必须 提供 强制 类 型 转换 ， 请 参见 7.1 节 的 相关 内 容 。Seq_new 和 
Seq_seq 都 可 以 引发 异常 Mem_Failed 。 
(exported functions 172)+= 
extern void Seq_free(T *seq); 


释放 并 清除 *seq 。 如 果 seq 或 者 *seq 为 空 指针 ， 则 会 产生 可 检查 的 运行 期 错误 。 


(exported functions 172)+= 
extern int Seq_length(T seq); 


返回 序列 seq 的 值 的 数目 。 
N 个 值 的 序列 中 的 值 与 从 0 到 N-1I 的 整数 索引 相关 联 。 这 些 值 能 被 下 述 函数 访问 : 
(exported functions 172)+= 
extern void *Seq_get(T seq, int i); 
extern void *Seq_put(T seq, int i, void *x); 
Seq_get 返 回 seq 中 的 第 i 个 值 。Seq_put 将 第 i 个 值 改 成 x 并 返回 原先 的 值 。 如 果 i 大 于 或 等 
于 N,， 则 会 在 运行 时 出 现 检测 错误 。Seq_get 和 Seq_put 在 固定 的 时 间 访 问 第 i 个 值 。 
序列 可 以 通过 在 两 端 中 的 任何 一 端 增 深 值 的 方法 来 扩展 。 
(exported functions 172)}+= 


extern void *Seq addlo(T seq, void *x); 
extern void *Seq addhi(T seq, void *x); 


Seq_addlo 将 X 加 到 低 端 并 返回 x 值 。 在 序列 的 开始 增加 一 个 值 将 会 使 得 已 经 存在 的 值 的 
索引 和 序列 的 长 度 都 增加 1 。Seq_addhi 将 x 加 到 seq 的 高 端 并 返回 x 值 ， 在 序列 的 末端 增加 一 
个 值 只 使 序列 的 长 度 加 1 。Seq_addlo 和 Segq_addhi 可 以 引发 异常 Mem_Failed , 

类 似 地 ， 序 列 可 以 通过 在 seq 任 意 一 端 删除 值 的 方法 来 缩减 : 

(exported functions 172)+= 


extern void *Seq_remlo(T seq); 
extern void *Seq_remhi(T seq); 


Seq_remlo 在 seq 的 低 端 删除 并 返回 一 个 值 。 在 序列 的 开始 删除 一 个 值 使 得 经 存在 的 值 
的 索引 和 序列 的 长 度 都 减 ]。Seq_remhi 将 在 seq 的 高 端 删除 并 返回 一 个 值 ， ion mcum 
除 一 个 值 只 使 序列 的 长 度 减 1 。Seq_remlo 和 Seq_remhi 可 以 引发 异常 Mem_Failed , 





11.2 实现 


就 像 在 本 章 并 始 说 明 的 邦 样 ， 序 列 是 一 个 动态 数组 的 高 度 抽象 化 。 因此 它 的 描述 包含 动 
态 数 组 一 一 不 是 一 个 指向 Array_T 的 指针 ， 而 是 Array_T 结 构 本 身 一 一 它 的 实现 将 导 和 人 Array 
和 ArrayRep : 
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(seq.c)s 

#include <stdlib.h> 
#include <stdarg.h> 
#include <string.h> 
#include "assert.h" 
#include "seq.h" 
#include "array.h" 
#include "arrayrep.h" 
#include "mem.h" 


#define T Seq_T 


struct T { 
struct Array_T array; 
int length; 
int head; 

H 


(static functions 179) 
(functions 175) 


length 域 包含 序列 中 的 值 的 数目 ，array 域 包含 序列 中 的 值 所 存储 的 数组 。 该 数组 始终 至 少 有 

length 个 元 素 ， 但 是 如 果 length 小 于 array.length 时 ， 有 一 部 分 元 素 没 有 被 使 用 。 数 组 被 用 做 
循环 的 缓冲 区 以 容纳 序列 值 。 序 列 的 第 0 个 值 存储 在 数组 头 元 素 head 中 ， 连 续 的 值 就 存储 在 

以 数组 大 小 为 模 的 连续 的 元 素 中 。 也 就 是 说 ， 如 果 序 列 的 第 i 个 值 存储 在 第 array.length-1 个 

元 素数 中 ， 则 第 i+1 个 值 存储 在 数组 的 第 0 个 元 素 中 。 岁 11-1 显 示 了 一 个 7 值 序列 可 以 存储 在 

一 个 16 元 素 的 数组 中 的 一 种 方法 。 左 边 的 表格 是 Seq_T 和 已 经 插入 的 Array_ T， 用 浅 色 的 阴 
影 表 示 。 右 边 的 表格 是 数组 ， 它 的 阴影 区 显示 了 被 序列 中 的 值 所 占用 的 元 素 。 





图 11-1 16 元 素 的 序列 


正如 下 面 将 要 描述 的 姥 样 ， 可 通过 以 数组 大 小 为 模 减 小 head 的 方法 将 数值 加 到 序列 的 开 
头 ， 义 通过 以 数组 大 小 为 模 增加 head 的 方法 将 数值 从 序列 开头 删除 。 一 个 序列 始终 带 有 一 个 
数组 ， 即 使 序列 是 空 的 也 不 例外 。 

通过 分 配 一 个 动态 数组 可 以 创建 “个 新 的 序列 ， 该 动态 数组 包含 hint 指 针 ， 当 hint 为 0 时 
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含有 16 个 指针 : 
(functions 175)= 
T Seq new(int hint) { 
T seq; 


assert(hint >= 0); 


NEWO(seq) ; 
if Chint == 0) 
hint = 16; 


ArrayRep_init(&seq->array, hint, sizeof (void *), 
ALLOCChint*sizeof (void *))); 
return seq; 


} 


用 NEWO 把 length 和 head 域 初始 化 为 0。Seq_seq 调 用 Seq_new ， 创 建 一 个 空 序列 ， 然 后 通过 
它 的 参数 调用 Seq_addhi ， 从 而 把 每 个 值 添加 到 这 个 新 的 序列 中 : 


(functions 175)+= 
T Seq seq(void *x, ...) 1 
va list ap; 
T seq = Seq new(0); 


va start(ap, x); 

for ( i x; x = va arg(ap, void *)) 
Seq. addhi (seg, x); 

va end(ap); 

return seq; 


} 
Seq_seq 使 用 宏 来 处 理 变 长 参数 列表 ， 这 一 点 很 像 List_list， 请 参见 第 7.2 节 相应 内 容 。 
Array_free 可 以 释放 一 个 序列 ， 包 括 释 放 数 组 和 它 的 描述 符 : 
(functions 175)+= 
void Seq free(T *seq) { 
assert(seq && *seq); 
assert((void *)*seq == (void *)&(*seq)->array); 


Array free((Array. T *)seq); 
} 


能 够 调用 Array_free 仪 仪 是 因为 在 代码 中 ， 有 *seq 的 地 址 等 于 &(*seq)_>array 的 断言 。 也 就 


是 说 ， 结 构 Array_T 一 定 是 结构 Seq_T 的 第 一 个 域 ， 以 使 在 Seq_new 中 几 NEWO 返 回 的 指针 婚 
指向 Seq_T， 义 指向 Array_T。 


Seq_length 只 返回 序列 的 length 域 : 


(functions 175)+= 
int Seq. length(T seq) { 
assert(seq); 
return seq->length; 


ARS 





序列 中 第 i 个 值 存储 在 数组 中 的 第 (head +i ) mod array.length 个 元 素 中 。 一 个 类 型 强制 


转换 (type cast ) 使 得 直接 对 数组 进行 索引 成 为 可 能 : 


(segq[i] 177)= 
((void **)seq->array.array)[ 
(seq->head + i)Xseq-»array.length] 


Seq_get 只 返回 该 数组 的 元 素 ，Seq_put 把 它 设 成 x : 


(functions 175)+= 
void *Seq get(T seq, int i) { 
assert(seq); 
assert(i >= 0 && i < seq->Tength); 
return (seq[i] 177); 


} 


void *Seq_put(T seq, int i, void *x) { 
void *prev; 


assert(seq); 

assert(i >= 0 && i < seq->length); 
prev = (seq[i] 177); 

(seq[i] 177) = x; 

return prev; 


} 


Seq_remlo 和 Seq_remhi 从 一 个 序列 中 删除 值 。Seq_remhi 在 这 两 个 函数 当中 更 简单 一 些 ， 


因为 它 只 减少 length 域 并 返回 由 一 个 新 的 length 索 引 的 值 ; 


(functions 175)+= 
void *Seq remhi(T seq) { 
int i; 


assert(seq); 
assert(seq->length > 0); 
i = --seq->length; 
return (seq[i] 177); 


} 


Seq_remlo 稍 微 复杂 一 点 ， 央 为 它 必须 返回 由 head 索 引 的 什 (head 的 值 在 序列 中 由 0 索引 ), 


按照 数组 大 小 来 增加 head ， 并 降低 length : 


(functions 1754s 
void *Seq remlo(T seq) { 
int i = 0; 
void *x; 


assert(seq); 
assert(seq-»length > 0); 
x = (seq[i] 177); 


seq->head = (seq->head + 1)%seq->array. length; 


--seq-»length; 
return x; 
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Seq_addlo 和 Seq_addhi 都 是 将 值 加 到 序列 中 ， 因 此 考虑 处 理 数 组 饱和 的 可 能 性 ， 当 
length 等 于 array.length 时 会 出 现 这 种 情况 。 当 满足 上 述 条 件 时 ， 这 两 个 函数 都 将 调用 expand 
来 扩展 数组 ， 这 是 通过 调用 Array_resize 来 实现 的 。 同 样 ，Seq_addhi 是 这 两 个 函数 中 比较 简 
单 的 一 个 ， 因 为 扩展 检查 后 ， 它 用 由 lengb 给 的 索引 来 存储 这 个 新 值 并 增加 length : 


(functions 175)+= 
void *Seq addhi(T seq, void *x) { 
int i; 


assert(seq); 

if (seq->length == seq->array. length) 
expand(seq) ; 

i = seq->length++; 

return (seq[i] 177) = x; 


} 


Seq_addio 也 进行 扩展 检查 ， 但 是 然后 按照 数组 大 小 降低 head ， 并 把 x 存 储 在 由 新 的 head 值 索 
引 的 数组 元 素 中 ， 即 是 序列 中 出 0 索引 的 值 


(functions 175)+= 
void *Seq_addlo(T seq, void *x) { 
int i = 0; 

assert(seq); 

if (seq->length == seq->array.length) 
expand(seq); 

if (--seq->head < 0) 
seq->head = seq->array.length - 1; 

seq->length++; 

return (seq[i] 177) = x; 


} 
Seq_addlof¥seq—>head = Arith_mod(seq—>head -1 ,seq—>array length) ÆRE ffkseq — head , 
expand 封 装 了 对 Array_resize 的 调用 ， 其 中 Array_resize 使 一 个 序列 数组 的 大 小 加 倍 : 
(static functions 179)= 


Static void expand(T seq) { 
int n = seq-»array.length; 


Array resize(&seq-»array, 2*n); 
if (seq->head > 0) 
(slide tail down 179) 
} 
TERN ER ARES Wr NHR, expand tt^ ZU eb BES c4] PE IESE wh AOE, BdE head 
好 为 ， 香 则 原始 数组 末端 的 元 素 一 一 从 head 往 下 一 一 必须 移 到 扩展 后 的 数组 的 未 端 以 便 能 
打开 中 间 的 元 素 ， 如 图 11-2 所 示 ，head 也 必须 做 相应 的 调整 ; 
(slide tail down 179)= 


{ 


void **old = &((void **)seq->array.array) [seq->head]; 
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memcpy(old+tn, old, (n - seq->head)*sizeof (void *)); 
seq->head += n; 


old — 


old«n 





图 11-2 扩展 一 个 序列 


参考 书目 浅 析 


序列 与 Icon 中 的 列表 几乎 一 致 (Griswold and Griswold 1990 )， 但 是 操作 的 名 称 来 自 库 
中 的 Sequence 接 口 ， 该 库 与 Modula-3 ( Horning, et al. 1993 ) 的 DEC 实现 联系 在 一 起 。 本 章 
中 描述 的 实现 也 与 DEC 实现 相似 。 练 习 11.1 探 讨 了 Icon 的 实现 。 


练习 


11.1 Icon 实 现 列表 一 一 它 的 序列 版 本 一 一 带 有 一 个 存储 块 的 双 链 接 列 表 ， 其 中 每 个 存 
储 块 有 M 个 值 。 这 种 表示 方法 避免 了 使 用 Array_resize ， 因 为 如 有 必要 ， 新 的 存储 
块 可 以 加 到 列表 的 任意 一 端 ， 以 有 效 地 调用 Seq_addlo 和 Seq_addhi 。 这 种 表示 方 
法 的 缺点 是 存储 块 必须 移动 访问 第 ;个 元 素 ， 所 花 的 时 间 与 ;7 M 成 比例 。 使 用 这 种 
表示 方法 为 Seq 建 立 一 个 新 的 实现 并 开发 一 些 测试 程序 来 测试 它 的 性 能 。 假 定 对 值 
i 的 访问 几乎 总 是 在 对 值 -1 或 值 i+1 的 访问 之 后 ， 你 能 修改 实现 使 得 这 种 情况 能 以 
固定 的 时 间 运 行 吗 ? 

11.2 为 一 个 不 使 用 Array_resize 的 Seq 设 计 一 个 实现 。 例 如 ， 当 N 个 元 素 的 数组 被 填 满 
后 ， 它 可 能 被 转化 成 数组 指针 的 数组 ， 其 中 每 个 数组 有 2N 个 元 素 ， 因 此 转换 后 的 
序列 可 包含 2N? 个 值 。 如 果 N 等 于 1024， 则 转换 后 的 序列 将 有 超过 两 百 万 个 元 素 ， 
每 个 元 素 都 能 在 固定 的 时 间 被 访问 。 在 这 种 边缘 矢量 (edge-vector ) 表示 法 中 ， 
每 个 具有 2N 个 元 素 的 数组 只 要 存 有 数值 ， 都 可 以 随意 地 分 配 。 

1L3 假定 禁止 使 用 Seq_addlo 和 Seq_remlo， 设 计 一 个 实现 ， 使 之 能 够 递增 地 分 配 空间 , 
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但 是 能 在 对 数 时 间 访 问 任 何 元 素 。 提 示 : Skip list ( Pugh 1990 ), 
11.4 序列 只 扩展 而 从 不 缩减 。 修 改 Seq->remlo 和 Seq ->remhi， 使 之 在 数组 中 半数 以 上 
的 元 素 没 有 使 用 时 ， 即 当 seg->length 小 于 seq-->array.length/2 时 ， 可 以 缩减 序列 。 
什么 时 候 不 应 做 这 样 的 修改 9” 提示 : thrashing ( ASE ANKE). 
11.5. 再 次 用 序列 而 不 是 集合 来 实现 xref 以 保存 行 号 。 既 然 文件 是 按 顺 序 读 了 到 的 ， 而 且 
因为 它们 都 将 按 升 序 在 序列 中 显示 ， 所 以 不 必 对 行 号 进行 排序 。 
181 11.6 改写 Seq_free ， 使 它 无 需 再 使 用 断言 TERR. 不 能 使 用 Array_free 。 


第 12 章 YM 


环 (ring ) 很 像 序列 : 它 含 有 出 N 个 从 0 到 N=-l 的 整数 索引 的 N 个 值 ， 其 中 必 为 正 数 。 一 个 
空 的 环 没 有 值 。 所 谓 的 值 就 是 指针 。 同 序列 的 值 一样 ， 环 里 的 值 也 可 以 出 索引 来 访问 。 

与 序列 不 同 的 是 , 值 可 以 添加 到 环 的 任何 地 方 ， 并 且 环 中 的 任何 值 都 可 以 被 删除 。 另 外 ， 
值 可 以 重新 编号 : 向 左 “ 旋 转 ” 环 以 环 的 长 度 为 模 会 降低 每 个 值 的 索引 ， 而 向 右 “旋转 ” 则 
以 环 的 长 度 为 模 增加 每 个 值 的 索引 。 以 上 做 法 的 代价 是 ， 当 访问 第 i 个 元 素 时 ， 不 能 保证 花 
费 的 时 间 是 固定 的 。 














12.1 接口 


正名 思 义 ， 环 是 一 个 双 链 接 的 列表 的 抽象 化 ， 但 是 Ring ADT 揭 示 了 环 只 是 -一 个 隐 式 指 
针 类 型 的 实例 : 
(ring.hys 


#ifndef RING INCLUDED 
#define RING. INCLUDED 


#define T Ring T 
typedef struct T *T; 


(exported functions 184) 
#undef T 
#endif 


将 一 个 空 的 环 传递 给 该 接口 的 任何 程序 都 将 会 产生 可 检查 的 运行 期 错误 。 
创建 环 的 函数 与 在 Seq 接 口中 所 使 用 的 函数 类 似 


(exported functions 184)= 
extern T Ring new (void); 
extern T Ring ring(void *x, ...); 





Ring_new 创 建 并 返回 一 个 空 的 环 。Ring_ring 创 建 和 返回 一 个 环 ， 它 的 值 被 初始 化 成 它 
的 非 空 指针 参数 。 参 数列 表 由 第 一 个 空 指针 参数 来 终 上 小。 因此 


Ring T names; 


names = Ring.ring("Lists", "Tables", "Sets", "Sequences", 
"Rings", NULL); 


创建 了 一 个 带 有 上 面 显示 的 5 个 值 的 环 ， 并 把 它 赋 给 names 。 参 数列 表 中 的 值 与 从 0 到 4 的 索 
引 相 关联 。 在 环 的 参数 列表 的 可 变 部 分 传递 的 指针 被 假定 为 空 指针 ， 因 此 当 传 递 的 不 是 空 指 





二 
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针 或 者 字符 型 指针 时 ， 程序 员 必 须 提供 强制 转换 ， 请 参见 7.1 节 的 相关 讨论 。Ring_new 和 
Ring_ring 可 以 引发 异常 Mem_Failed 。 


(exported functions 1844 
extern void Ring free (T *ring); 
extern int Ring length(T ring); 


Ring_free 释 放 *ring 指 向 的 ring 并 清除 *ring。 如 果 ring 或 者 *ring 为 空 指针 则 会 产生 可 检 
查 的 运行 期 错误 。Ring_length 返 回 在 ring 中 的 值 的 数目 。 
一 个 长 度 为 N 的 环 中 的 值 由 整数 0 到 N-1 索 引 。 这 些 值 由 下 列 函 数 进行 访问 : 


(exported functions 184)+= 
extern void *Ring get(T ring, int i); 
extern void *Ring put(T ring, int i, void *x); 


Ring_get 返 回 ring 中 的 第 i 个 值 。Ring_put 把 ring 中 的 第 i 个 值 改 成 x 并 返回 原先 的 值 。 如 果 
i 大 于 或 者 等 于 N 则 会 产生 可 检查 的 运行 期 错误 。 
值 通过 下 列 函 数 添加 到 ring 中 的 任何 地 方 ; 


(exported functions 184)+= 
extern void *Ring add(T ring, int pos, void *x); 


Ring_add 在 位 置 pos 将 x 添加 到 ring 中 ， 并 返回 x。 一 个 有 N 个 值 的 ring 中 的 位 置 如 下 图 所 
未 ,这 是 一 个 带 有 从 0 到 4 的 整数 索引 的 五 元 素 环 。 





-5 -4 -3 -2 -1 0 

图 中 中 间 一 行 数字 表示 索引 ,最 上 面 一 行 是 正 的 位 置 ， 最 下 面 一 行 是 非洲 的 位 置 。 非 正 的 位 
置 定义 了 环 的 末端 具体 的 位 置 ， 它 并 不 知道 环 的 长 度 。 位 置 0 和 1 在 空 的 环 中 也 是 有 效 的 。 
Ring_add 能 接受 任何 形式 的 位 置 。 定 义 一 个 并 不 存在 的 位 置 会 产生 可 检查 的 运行 期 错误 ， 不 
存在 的 位 置 包括 超过 环 的 长 度 的 位 置 和 负 位 置 的 绝对 值 超过 环 的 长 度 的 位 置 。 

增加 一 个 新 的 值 使 得 它 右边 的 值 的 索引 和 整个 环 的 长 度 都 增加 一 。Ring_add 可 以 引发 异 
常 Mem_Failed 。 

函数 

(exported functions 184) 


extern void *Ring.addlo(T ring, void *x); 
extern void *Ring addhi(T ring, void *x); 


等 同 于 在 Seq 接 口中 命名 的 类 似 的 函数 。Ring_addlo 同 Ring_add (ring, 1, x) 等 价 ， 
Ring addhi[jRing add(ring,0,x) & fff, Ring addlofüRing addhi 459] UJ RRE 
Mem Failed , 
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函数 


(exported functions 184)+= 
extern void *Ring_remove(T ring, int i); 


删除 并 返回 ring 中 的 第 i 个 值 。 删 除 一 个 值 将 使 得 在 它 右 面 的 部 分 的 剩余 的 值 索 引 减 1 。 如 果 i 
大 于 或 者 等 于 ring 的 长 度 ， 则 会 产生 可 检查 的 运行 期 错误 。 
同 Seq 函数 有 类 似 的 函数 名 ， 下 列 函数 


(exported functions 184)+= 
extern void *Ring remlo(T ring); 
extern void *Ring remhi (T ring); 


删除 并 返回 ring 中 低 端 或 者 高 端的 值 。Ring_remlo 同 Ring_remove(ring,0) 等 价 ，Ring_remhi 
同 Ring_remove(ring，Ring_length(ring)-1) 等 价 。 将 一 个 空 的 ring 传 递 给 Ring_remlo 或 
Ring_remhi 将 会 产生 可 检查 的 运行 期 错误 。 

“ring” 的 名 字 来 自 下 列 函数 : 


(exported functions 184)+= 
extern void Ring rotate(T ring, int n); 


该 函数 通过 左旋 或 者 右 旋 对 ring 中 的 值 进行 重新 编号 。 如 果 n 为 正 , ring ilie ( 即 顺 时 针 旋 转 ) 
n 个 值 ， 每 个 值 的 索引 也 以 ring 的 长 度 为 模 增加 n 。 将 一 个 含有 元 素 A 到 了 的 ring 向 右 旋转 三 次 
的 情况 如 下 图 所 示 ; 其 中 箭头 指向 第 一 个 元 素 。 


ie me 
AIC ard 
如 果 n 为 负 ，ring 向 左旋 转 ( 即 道 时 针 旋转 ) n fü, 每 个 值 的 索引 以 ring 的 长 度 为 模 减 


少 n。 如 果 n 以 ring 的 长 度 为 模 是 9，Ring_rotate 无 效 。 如 果 n 的 绝对 值 超过 了 ring 的 长 度 ， 则 
会 产生 可 检查 的 运行 期 错误 。 





12.2 实现 


实现 把 一 个 环 描绘 成 一 个 带 有 两 个 域 的 结构 ; 


(ring.c)s 
include <stdlib.h> 
#include «stdarg.h» 
#include <string.h> 
#include "assert.h" 
#include "ring.h" 
#include "mem.h" 


#define T Ring_T 


struct T { 





88] 
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struct node { 
struct node *llink, *rlink; 
void *value; 
} *head; 
int length; 
}; 


(functions 188) 
head 域 指向 一 个 hode 结 构 的 双向 链接 列表 ， 其 中 node 结 构 里 的 value 域 含有 ring 中 的 值 。head 
指向 与 索引 0 相关 联 的 值 ， 连 续 的 值 存放 在 由 rlink 域 链接 的 ode 里面 ,并且 每 个 node 的 llink 


域 都 指向 它 的 前 者 。 图 12-1 显 示 了 一 个 带 有 六 个 值 的 ring 的 结构 。 点 划 线 源 自 ]link 域 并 逆 时 
针 运 动 ， 而 实 线 源 自 rlink 域 并 顺 时 针 旋 转 ; 








图 12-1 一 个 六 元 素 的 环 


(functions 188)= 
T Ring. new(void) ( 
T ring; 


NEWOCring); 
ring->head = NULL; 
return ring; 


} 


Ring_ring 创 建 了 一 个 空 的 环 ， 然 后 调用 Ring_addhi 添 加 它 的 每 个 指针 参数 ， 直 到 第 一 个 空 指 
针 为 止 ， 但 不 包含 第 一 个 空 指针 : 


an 


(functions 188)+= 
T Ring ring(void *x, ...) 1 
va list ap; 
T ring = Ring newO; 


va start(ap, x); 
for ( ; x; x = va arg(ap, void *)) 
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Ring addhi(ring, x); 
va end(ap); 
return ring; 


} 
释放 一 个 环 首 先 要 释放 node 结 构 ， 然 后 释放 环 头 。 因 为 node 释 放 的 顺序 无 关 紧 要 ， 所 以 
Ring_free 只 是 Brlink 指 针 的 顺序 释放 。 


(functions 188)+= 
void Ring free(T *ring) ( 
struct node *p, *q; 


assert(ring && *ring); 

if (Cp = (*ring)->head) != NULL) { 
int n = (*ring)-»length; 
for (; n--> 0; p=q) ( 


q = p-»rlink; 
FREE (p); 
} 
} 
FREE(*ring) ; 
} 
E : 


(functions 188)+= 
int Ring length(T ring) ( 
assert(ring); 
return ring->length; 


} 
返回 环 中 的 值 数 。 
Ring_get 和 Ring_put 必 须 找 到 环 中 的 第 i 个 元 素 。 这 样 算 来 ， 要 把 列表 移动 到 第 i 个 节点 
结构 中 ， 该 操作 是 由 下 述 函数 完成 的 ; 


(q e ith node 189)= 


int n; 
q = ring->head; 
if (i <= ring->length/2) 
for (n = i; n-- > 0; ) 
q = q-»rlink; 
else 
for (n = ring->length - i; n-- > 0; ) 
q = q->llink: 
} 


上 述 代码 以 最 短 的 路 径 到 达 第 i 个 节点 ; 如 里 不 超过 环 长 度 的 一 半 ， 第 一 次 循环 要 通过 rlink 
指针 顺 时 针 旋 转 到 指定 节点 。 和 否则 ， 要 通过 link 北 时 针 旋 转 。 例 如 ， 在 图 12-1 中 ，0 到 3 通过 
右 旋 来 达到 ，4 和 5 要 通过 左旋 来 达到 。 
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给 定 了 这 个 代码 块 后 ， 这 两 个 访问 函数 就 很 简单 了 : 


(functions 188)+= 
void *Ring get(T ring, int i) { 
struct node *q; 


assert(ring); 

assert(i >= 0 && i « ring->length); 
(q — ith node 189) 

return q-»value; 


} 


void *Ring_put(T ring, int i, void *x) { 
struct node *q; 
void *prev; 


assert(ring); 

assert(i >= 0 && i « ring-»length); 
(q e ith node 189) 

prev - q-»value; 

q-»value - x; 

return prev; 


}. 


向 环 添 加 值 的 函数 必须 分 配 一 个 节点 ， 对 它 进行 初始 化 ,并 把 它 插 人 到 双向 链接 列表 的 
适当 的 位 置 。 它 们 也 必须 能 处 理 向 一 个 空 环 添加 节点 的 操作 。Ring_addhi 是 这 些 函 数 中 最 简 
单 的 一 个 : 它 把 一 个 新 的 节点 插入 到 由 head 指 向 的 节点 的 左边 ， 如 图 12-2 所 示 。 深 色 的 阴影 
用 于 区 分 新 的 节点 ， 右 边 图 中 较 重 的 线 显 示 了 那 条 链 路 改变 了 。 下 面 是 代码 : 

(functions 188)+= 


void *Ring addhi(T ring,» void *x) { 
struct node *p, *q; ‘ 


assert(ring); 
NEWCp) ; 
if ((q = ring->head) != NULL) 
(insert p to the left of q 191) 
else 
(make p ring's only value 191) 
ring->length++; 
return p->value = x; 


} 
向 一 个 空 环 添加 一 个 值 很 简单 ring ->head 指 向 这 个 新 的 节点 ， 而 节点 的 链接 指向 节点 
ATE. 


(make p ring's only value 191) 
ring->head = p-»llink = p->rlink = p; 


如 图 12-2 所 示 的 那样 ，Ring_addhi 在 环 中 的 第 一 个 节点 就 指向 了 q， 并 把 新 值 插入 到 它 
的 左边 。 这 种 插入 包括 初始 化 新 节点 的 链 ， 并 改变 q 的 llink 和 q 的 前 者 的 rlink 的 方向 : 
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(insert p to the left of q 191)= 


p-»llink = q->1link; 
q-»llink-»rlink = p; 
p-»rlink = q; 
q-»1link p; 


head p head 











图 12-2 将 一 个 新 值 插 人 到 head 的 左边 191 


图 12-3 序 列 的 第 二 到 第 五 个 图 说 明了 这 四 个 语句 各 自 产生 的 影响 。 每 一 步 中 深 色 的 曲线 
表示 新 的 链 。 当 q 指 向 双向 链接 列表 中 的 惟一 的 节点 时 ， 重 新 画 出 这 个 序列 是 有 益 的 。 











图 12-3 将 一 个 新 的 节点 插入 到 q 的 左边 
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Ring_addlo 几 乎 是 一 样 的 简单 ， 只 是 这 个 新 的 节点 成 为 环 中 的 第 一 个 节点 。 这 种 转换 可 
用 通过 调用 Ring_addhi 然 后 再 向 右 旋转 一 次 来 实现 ， 而 向 右 旋转 足 通过 把 head 的 值 设 成 它 的 
前 者 的 值 来 实现 的 。 


(functions 188)+= 
void *Ring addlo(T ring, void *x) { 
assert(ring); 
Ring. addhi(ring, x); 
ring->head = ring-»-head-»llink; 
return x; 


} 

Ring_add 是 这 三 个 添加 新 值 的 函数 里 面 最 复杂 的 一 个 ， 央 为 它 将 处 理 前 面 讲述 的 任意 位 
贺 的 演 加 情形 ， 包 括 环 的 两 端 。 这 些 情 况 可 以 利用 Ring_addlo 和 Ring_addhi 处 理 未 端 添 加 问 
题 的 方式 来 解决 ， 顺 便 注 意 环 为 空 的 情况 。 对 于 其 他 情况 ， 转 换 值 的 索引 的 位 置 到 右边 IA 
后 将 新 的 节点 添加 到 它 的 左边 ， 如 上 所 述 。 


(functions 188)+= 
void *Ring add(T ring, int pos, void *x) { 
assert(ring); 
assert(pos >= -ring->length && pos<=ring->length+1) ; 
if (pos == 1 || pos == -ring-»length) 
return Ring_addloCring, x); 
else if (pos == 0 || pos == ring->length + 1) 
return Ring_addhiCring, x); 
else { 
struct node *p, *q; 
int i = pos < 0 ? pos + ring-»length : pos - 1; 
(q — ith node 189) 
NEW(p) ; 
(insert p to the left of q 191) 
ring->length++; 
return p->value = x; 


} 


前 两 个 过 语句 是 关于 环 末 尾 的 特殊 位 置 。i 的 初始 化 处 理 与 1 到 ring ->length_1 的 索引 相应 的 位 置 。 
这 三 个 删除 值 的 函数 都 比 三 个 增加 值 的 函数 简单 ， 因 为 删除 值 没有 界限 的 限制 ， 惟 一 的 
一 个 限制 是 删除 环 中 最 后 一 个 值 时 需要 注意 。Ring_remove 在 这 三 个 函数 中 是 最 典型 的 ， 它 
寻找 第 个 节点 并 从 双向 链接 的 列表 中 将 它 删 除 : 
(functions 188)+= 
void *Ring_remove(T ring, int i) { 
void *x; 
struct node *q; 


assert(ring); 
assert(ring-»length » 0); 
assert(i »- 0 && i « ring-»length); 
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(q — ith node 189) 
if G == 0) 
ring->head = ring->head->rlink; 
X = q-»value; 
(delete node q 194) 
return x; 


) 

如 果 i 为 0， Ring_remove 删 除 第 一 个 节点 、 因 此 必须 改变 head 的 方向 指向 -一 个 新 的 第 一 个 节点 。 
增加 一 个 节点 需要 对 四 个 指针 进行 操作 ， 而 删除 一 个 节点 只 需要 对 两 个 指针 进行 操作 : 
(delete node q 194)= 

q-»llink-»rlink = q->rlink; 

q-»rlink-»llink = q-»llink; 

FREE(q); 

if (--ring->length == 0) 
ring->head = NULL; 


图 12-4 的 第 二 和 第 三 个 图 表 说 明 在 这 个 代码 块 的 开始 两 行 语句 各 自 产 生 的 影响 。 受 影响 的 链 

用 深 色 的 曲线 表示 。 在 <delete node q 7194> 中 第 三 条 语句 释放 节点 ， 最 后 两 条 语句 减 小 ring 

的 length ， 并 在 最 后 一 个 节点 被 删除 时 清除 它 的 head 指 针 。 同 样 ， 桓 出 从 一 个 或 两 个 节点 的 
列表 中 删除 一 个 节点 的 序列 是 有 益 的 。 


CELERE 














Ring_remhi 与 此 类 似 ， 只 是 寻找 指定 的 节点 更 容易 些 ， 


(functions 188)+= 
void *Ring. remhi(T ring) { 
void *x; 
struct node *q; 


assert(ring) ; 
assert(ring->Tength > 0); 
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q = ring->head->11ink; 
X = q-»value; 
(delete node q 194) 
return x; 
} 
[195] 如 上 所 示 ，Ring_addlo 通 过 调用 Ring_addhi 和 改变 ring 的 head 值 使 之 指向 它 的 前 者 来 实 
现 的 。Ring_remlo 的 实现 方式 是 : 改变 ring 的 head 使 之 指向 后 者 ， 并 调用 Ring_remhi。 
(functions 188)+= 
void *Ring remlo(T ring) { 
assert(ring); 
assert(ring-»length > 0); 
ring->head = ring->head->rlink; 
return Ring_remhi (ring); 


} 
最 后 一 个 操作 是 旋转 一 个 环 。 如 果 n 为 正 ， 一 个 N 值 的 环 顺 时 针 旋 转 ， 这 就 意味 着 以 N 为 
模 的 索引 n 成 为 新 的 head 。 如 果 n 为 负 ， 环 道 时 针 旋转 ， 这 意味 着 它 的 head 移 到 索引 n+N 所 指 
的 值 上 。 


(functions 188)+= 
void Ring rotate(T ring, int n) { 
struct node *q; 
int i; 


assert(ring); 

assert(n >= -ring->length && n <= ring->length); 

if (n >= 0) 

i = n%ring->length; 

else . ) 
i = n + ring-»length; 

(q < ith node 189) 

ring->head = q; 


} 
这 里 ， 使 用 <g<-ith node 189> 确 保 旋转 路 径 最 短 。 


参考 书目 浅 析 


Knuth ( 1973a ) 和 Sedgewick ( 1990 ) 都 有 详细 处 理 双向 列表 的 算法 。 
Icon 提供 的 一 些 增加 和 删除 列表 中 的 值 的 操作 与 Ring 提 供 的 类 似 。 练 习 12-4 探 讨 了 Icon 
的 实现 。Ring_add 中 定义 位 置 的 程序 来 自 Icon 。 


练习 


12.1 改写 Ring_free 中 的 循环 ， 删 除 变量 n ; 使 用 列表 结构 来 决 定 循 环 何 时 结束 。 
12.2 仔细 检查 Ring_rotate 的 实现 ， 解 释 为 什么 第 二 个 if 语句 一 定 要 写成 n+ring_>length。 
12.3 调用 Ring_get(ring , iD 通常 紧 跟着 另外 一 个 调用 ， 如 Ring_get(ring,i+1)。 修改 实现 ， 
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使 环 能 够 记忆 它 最 近 访 问 的 索引 和 相应 的 节点 ， 并 利用 该 信息 尽 可 能 的 避免 在 
«q«-ith node 189> 中 循环 。 不 要 忘 了 当 增 加 或 考 删除 值 时 要 更 新 信息 。 设 计 一 个 
测试 程序 ， 来 证 明 你 的 改善 带 来 的 好 处 。 

Icon 实现 列表 同 环 相 似 ， 同 带 有 N 个 值 的 数组 的 双 间 链接 链表 也 类 似 。 这 些 数组 被 
用 做 圆 形 缓冲 区 ， 就 像 数 组 在 Seq 的 实现 中 那样 。 寻 找 第 i 个 值 可 以 近似 地 向 下 搜 
索 环 列 表 中 的 i ZN 个 数组 ， 然 后 计算 数组 中 第 i 个 值 的 索引 。 增 加 一 个 值 ， 要 么 把 
它 加 到 一 个 已 经 存在 的 数组 的 空闲 位 置 ， 要 么 增加 到 一 个 新 的 数组 。 删 除 一 个 值 
则 空 出 数组 中 的 一 个 位 置 。 而 且 ， 如 果 要 删除 的 值 是 数组 中 最 后 一 个 ， 则 此 时 也 
从 列表 中 删除 并 释放 。 这 种 表示 方法 比 本 章 中 描述 的 要 复杂 得 多 ， 但 是 它 对 于 较 
大 的 环 性 能 较 好 。 使 用 这 种 方法 再 次 实现 环 ， 并 测试 这 两 种 实现 的 性 能 。 环 要 多 
大 才能 检测 到 性 能 的 改善 ? 
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第 13 章 位 向 量 


第 9 章 讲 述 的 集合 可 以 带 有 任意 个 元 素 ， 因 为 这 些 元 素 仅 仅 册 客户 调用 程序 提供 的 函数 
来 进行 处 理 。 整 数 集合 灵活 性 更 差 一 些 ， 但 是 使 用 它们 通常 就 足够 确定 一 个 独立 的 ADT 。 
Bit 接 口 导 出 处 理 位 向 量 (bit vector ) 的 函数 ， 位 向 量 可 以 表示 从 0 到 N-1 的 整数 集合 。 例 如 ， 
256 比 特 的 向 量 可 有 效 地 表示 字符 型 集合 。 

Bit 提 供 了 大 多 数 Set 提 供 的 集合 处 理 函 数 ， 还 有 少量 函数 是 专门 针对 位 向 量 的 。 不 同 于 
由 Set 提 供 的 集合 ， 出 位 向 量 提供 的 集合 有 一 个 非常 好 的 定义 域 ， 是 从 0 到 N-1 的 整数 型 集合 。 
因此 ，Bit 可 以 提供 Set 不 能 提供 的 函数 ， 如 一 个 集合 的 补 集 (complement )。 


13.1 接口 


位 向 量 这 个 名 字 解 释 了 整数 型 集合 的 表示 方法 在 本 质 上 是 比特 序列 。 然 而 ，Bit 接 口 只 
导出 一 个 表示 一 个 位 向 量 的 隐 式 类 型 
(bit.hys 


#ifndef BIT INCLUDED 
#define BIT INCLUDED 


#define T Bit T 
typedef struct T *T; 

(exported functions 200) 

#undef T 

ftendi f 

3jBit new 创建 一 个 位 向 量 后 ， 该 位 向 量 的 长 度 就 固定 了 : 

(exported functions 200)= 

extern T Bit new (int length); 
extern int Bit length(T set); 
extern int Bit count (T set); 

Bit_new 创 建 了 一 个 新 的 length 个 位 长 的 向 量 ， 并 把 所 有 的 位 都 设 为 0。 位 向 量 表示 包含 
了 从 0 到 length -1 位 的 整数 集合 。 如 果 length 为 负 则 会 产生 可 检查 的 运行 期 错误 。Bit_new 可 
以 引发 异常 Mem_Failed， 

Bit_lengthik E]set PAY (Se, MBit_countik set 中 1 MAA. 

BRBit_union , Bit inter, Bit minus 和 Bit_diff 之 外 ,将 一 个 空 的 T 传 递 给 该 接口 的 任何 
例 程 都 会 产生 可 检查 的 运行 期 错误 。 
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(exported functions 2002 
extern void Bit free(T *set); 


释放 并 清除 *set。 如 果 set 或 者 *set 为 空 ， 则 会 产生 可 检查 的 运行 期 错误 。 
set 中 的 各 个 元 素 ( 它 的 向 量 中 的 每 一 位 ) H FRR BORD EE: 
(exported functions 200) 


extern int Bit get(T set, int n); 
extern int Bit put(T set, int n, int bit); 


Bit_get 返 回 比特 n 值 并 测试 n 是 否 在 set 中 ; 即 Bit_get 当 比特 n 在 set 中 时 返回 1 而 当 n 不 在 
set 中 时 返回 0 。Bit_put 根 据 bit 在 位 向 量 中 设置 比特 a 并 返回 比特 n 对 应 的 位 向 量 中 先前 值 。n 
为 负 或 者 大 于 等 于 set 的 长 度 ， 或 者 bit 既 不 是 0 也 不 是 1 时 ， 会 产生 可 检查 的 运行 期 错误 。 

上 述 函 数 处 理 set 中 的 各 个 位 ; 而 下 列 函 数 则 处 理 set 中 的 相 邻 的 比特 序列 一 一 个 set 的 
子 集 。 

(exported functions 200)+= 

extern void Bit clear(T set, int lo, int hi); 


extern void Bit set (T set, int lo, int hi); 
extern void Bit not (T set, int lo, int hi); 


Bit-_clear 清 除 从 lo 到 hi 的 比特 位 ，Bit_set 设 置 从 lo 到 hi 的 比特 位 ，Bit_not 取 从 lo 到 hi 比特 
位 的 补 集 。 如 果 1lo 超 过 hi 、1lo 或 者 hi 为 负 ， 以 及 lo 或 者 hi 大 于 等 于 set 的 长 度 ， 都 会 产生 可 检查 
的 运行 期 错误 。 

(exported functions 200)+= 

extern int Bit lt (T s, T t); 


extern int Bit eq (T s, T t); 
extern int Bit leq(T s, T t); 


Bit tes Ct 时 返回 1 ， 和 否则 返回 0。 如 果 s ct， 则 s 是 t 的 子 集 。 如 果 s ct, 则 Bit_eq 返 回 1， 
否则 返回 0。 如 果 s ct， 则 Bit_leq 返 回 1 ， 否 则 返回 0。 对 所 有 这 三 个 函数 ， 如 果 s 和 t 的 长 度 不 
等 ， 则 会 产生 可 检查 的 运行 期 错误 。 

PRE : 

(exported functions 200)+= 


extern void Bit_map(T set, 
void apply(int n, int bit, void *cl), void *cl); 


从 零 比特 位 开始 ， 为 set 中 的 每 个 比特 位 调用 apply 函 数 。n 是 比特 序号 ， 其 值 从 0 到 集合 的 长 
度 减 1 ，bit 是 位 n 的 值 ，cl 由 客户 调用 程序 提供 。 不 同 于 传递 给 Table_map 的 函数 ，apply 可 
以 改变 set 的 值 。 如 果 为 比特 n 调 用 apply 却 改变 了 上 比特 k 的 值 ， 其 中 ksn 则 该 变化 就 会 在 随后 
对 apply 的 调用 中 看 到 ， 因 为 Bit_map 必 须 在 合适 的 位 置 来 处 理 比 特 位 DUI 就 要 在 处 理 它 的 
比特 之 前 让 Bit_map 对 向 量 进行 备份 。 

下 述 函 数 执行 四 个 标准 的 集合 操作 ， 在 第 9 章 中 已 经 有 所 讲述 。 得 个 函数 都 返回 一 个 新 
的 集合 ， 其 值 就 是 操作 结果 。 
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(exported functions 200)+= 


extern T Bit_union(T s, T t); 
extern T Bit_inter(T s, T t); 
extern T Bit minus(T s, T t); 
extern T Bit diff (T s, T t); 


Bit_union 返 回 Ss 和 t 的 并 集 ， 用 s e t 表 示 ， 是 两 个 位 向 量 做 或 COR ) is &, Bit interig Elst 
的 交集 ， 用 s*t 表 示 ， 是 两 个 位 向 量 做 逻辑 与 (AND ) 运算 。Bit_minus 返回 和 t 的 差 ， 用 st 
表示 ， 是 s 和 t 的 补 做 逻辑 与 运算 。Bit_diff 返 回 s 和 t 的 对 称 差分 (symmetric difference )， 用 
s /t 表 示 ， 是 s 和 t 做 异 或 (exclusive OR ) 运算 。 

这 四 个 函数 都 接受 s 或 的 空 指针 ( 但 不 能 s 和 t 均 为 空 )， 并 把 对 应 集合 解释 成 空 集 合 。 
Bit union (s, NULL ) 返回 $ 的 一 个 副本 。 这 些 函 数 总 是 返回 非 空 的 T。s 和 {t 均 为 空 ， 会 产生 
可 检查 的 运行 期 错误 ，s 和 t 有 不 同 的 长 度 也 会 产生 可 检查 的 运行 期 错误 。 这 些 函数 都 可 引发 


异常 Mem Failed。 


13.2 实现 


Bit_T 是 带 有 位 向 量 的 长 度 和 比特 本 身 的 结构 的 指针 : 


(bit.cjs 
#include «stdarg.h» 
#include <string.h> 
#include "assert.h" 
#include "bit.h" 
#include "mem.h" 


#define T Bit_T 


struct T { 
int length; 


unsigned char *bytes; 
unsigned long *words; 


H 


(macros 203) 

(static data 207) 
(static functions 212) 
(functions 203) 


Ieng 引 域 给 出 了 向 量 中 的 比特 数 ，bytes 指 向 至 少 [length / 8] 个 字 节 。 通 过 索引 bytes 可 以 访 
问 比 特 ，bytes [i] 指向 带 有 从 8 .i 到 8 .i+7 比 特 的 字 节 , 其 中 8 ,ij 是 字 节 中 最 低 有 效 数 字 位 ， 
注意 ， 该 规定 只 用 于 每 个 字符 8 位 的 情况 ， 对 于 超过 8 位 的 机 器 ， 则 超出 的 位 将 不 使 用 。 

如 果 所 有 访问 单个 比特 的 操作 ， 比 如 Bit_get， 都 使 用 相同 的 约定 来 访问 位 ， 则 可 以 将 比 
特 存 储 到 无 符号 长 整 型 数组 中 来 进行 处 理 。Bit 使 用 字符 数组 来 允许 表 驱 动 实现 Bit_count 、 


Bit set, Bit clear füBit not, 
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一 些 操作 ， 比 如 Bit_union ， 并 行 处 理 所 有 的 比特 位 。 对 于 这 些 操作 ， 通 过 words 可 以 在 
同一 时 间 访 问 BPW 个 比特 的 向 量 


(macros 203)= 
"define BPW (8*sizeof (unsigned long)) 


其 中 words 必 须 指向 一 个 无 符号 长 整 型 数 ; nwords 计 算 一 个 带 有 length 比 特 位 的 位 向 量 所 含 
的 长 整 型 数 的 个 数 : 


(macros 203)+= 
#define nwords(Ten) ((((1en) + BPW - 1)&(~(BPW-1)))/BPW) 


Bit_new 使 用 nwords 来 分 配 一 个 新 的 T. 


(functions 203) 
T Bit new(int length) { 
T set; 


assert(length »- 0); 
NEW(set); 
if Clength > 0) 
set->words = CALLOC(nwords(length), 
sizeof (unsigned long)); 
else 
set->words = NULL; 
set->bytes = (unsigned char *)set-»words; 
set-»length = length; 
return set; 


} 
Bit_new 至 多 可 以 分 配 sizeof (unsigned long ) -1 个 额外 的 字 节 。 这 些 额 外 的 字 节 必须 为 0 以 
便 下 列 函数 能 正确 地 执行 。 

Bit_free 释 放 了 集合 并 清除 它 的 参数 ， Bit length ik [Allength ty , 


(functions 203)+= 
void Bit free(T *set) { 
assert(set && *set); 
FREEC(C*set) -»words) ; 
FREE(*set); 
} 


int Bit_length(T set) { 


assert(set); 
return set->length; 


13.2.1 成 员 操 作 


Bit_count 返 回 集合 中 的 成 员 数 一 一 即 集 合 中 每 一 个 位 值 为 1 的 个 数 。 该 函数 可 以 简单 地 
遍历 集合 并 测试 每 个 比特 位 ,但 是 它 使 用 两 个 “ 半 字 节 ”( 即 它 的 两 个 “四 比特 半 字 节 ”)， 
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同 使 用 表 的 索引 一 样 为 所 有 16 个 可 能 的 半 字 节 提 供 位 值 为 1 的 个 数 : 


(functions 203)+= 
int Bit count(T set) ( 
int length = 0, n; 
static char count[] 


={ 
0,1,1,2,1,2,2,3,1,2 


,2,3,2,3,3,4 了; 
assert(set); 
for (n = nbytes(set->length); --n >= 0; ) { 
unsigned char c = set-»bytes[n]; 
length += count[c&OxF] + count[c>>4]; 
} 204 
return length; 


} 


(macros 2034s 
fdefine nbytes(Tem) (((CTen) + 8 - 1)&(~(8-1)))/8) 


nbytesit# [len / 8], EFA FUE fou] frr] 8 — CHE FE— (EB RE. MER RET RS 
length 和 字 节 的 两 个 四 比特 半 字 节 的 比特 数值 之 和 相 加 来 计算 集合 中 第 n 字 节 中 的 比特 数 。 该 
循环 可 以 访问 外 部 存储 空间 的 比特 位 ， 但 是 因为 Bit_new 将 所 有 比特 均 初 始 化 为 0 ， 所 以 这 种 
访问 不 能 改变 函数 执行 结果 。 
比特 n 是 字 节 n / 8 中 的 位 数 为 n%8 的 表示 数值 ， -个 字 节 中 的 位 数 从 0 开始 并 从 右 向 左 增 
加 ， 即 最 低 有 效 数字 位 是 位 0 ， 最 高 有 效 数 字 位 是 位 7。Bit_get 返 回 比 特 n 的 值 ， 是 通过 将 字 
Fin /8 向 右 移动 n%8 位 并 只 返回 最 右边 的 位 的 方法 来 实现 的 : 
(functions 203)+= 
int Bit get(T set, int n) { 
assert(set); 
assert(O <= n && n < set->length); 


return (bitn in set 205); 


} 


(bit n in set 205)= 
((set->bytes [n/8]>>(n%8) )&1) 


Bit_put 使 用 相同 的 方式 设置 比特 mn: 如 果 bit 为 1，Bit_put 将 比特 1 向 左 移动 n 95843 , 并 将 其 结 
果 与 set 中 第 n / 8 字 节 内 容 进行 或 运算 。 


(functions 203)+= 
int Bit put(T set, int n, int bit) ( 
int prev; 


assert(set); 

assert(bit == 0 || bit == 1); 
assert(0 <= n && n < set-»length); 
prev - (bitn in set 205); 

if (bit == 1) 


_ .:. 


set-»bytes[n/8] |=  1««(nX8); 


else 
set-»bytes[n/8] &- -(1««(nX8)); 
return prev; 


} 
如 上 所 示 ，Bit_put 通 过 形成 一 个 掩 码 来 清除 比特 n ， 在 该 掩 码 中 ， 第 n%8 位 是 0 而 其 他 位 都 
是 1 ， 然 后 将 这 个 掩 码 与 set 中 第 n / 8 字 节 内 容 进行 与 运算 。 

Bit set, 、Bit_clear 和 Bit_not 都 采用 相似 的 手段 来 设置 set 中 的 某 段位 范围 ， 或 清除 和 取 补 
集 ， 但 是 它们 的 处 理 更 加 复杂 ， 因 为 它们 必须 处 理 范围 超过 字 节 边界 限制 的 情况 。 例 如 ， 如 
果 set 有 60 位 PR 

Bit set(set, 3, 54) 
将 设置 首 字 节 中 第 3 到 第 7 位 、 第 一 到 第 五 字 节 中 所 有 的 位 和 第 六 字 节 中 的 第 0 到 第 6 位 ， 其 中 
字 节 是 从 0 开始 计数 的 。 这 三 个 从 右 到 左 的 区 域 ， 如 下 图 ， 分 别 用 不 用 的 阴影 表示 。 


第 七 字 节 中 高 四 位 比特 位 不 使 用 ， 因 此 始终 为 0。Bit_set 函 数 代码 块 反应 了 这 三 个 区 域 ， 


(functions 2034 
void Bit set(T set, int lo, int hi) 1 

(check set, lo, and hi 206) 

if (10/8 < hi/8) 1 
(set the most significant bits in byte 10/8 207) 
(set all the bits in bytes 10/8+1..hi/8-1 207) 
(set the least significant bits in byte hi/8 207) 

} else 
(set bits 10%8..hi%8 in byte 10/8 208) 






} 


(check set, 1o, and hi 206)= 
assert(set); 
assert(0 <= lo && hi < set-» length); 
assert(lo «- hi); 


当 lo 和 hi 指向 不 同 字 节 中 的 位 时 ， 在 字 节 lo /8 中 设置 的 位 数 将 依赖 于 lo %8 : 如 果 1lo%8 为 0 , 


”将 设置 所 有 的 比特 位 ， 如 果 为 ?， 只 设置 最 高 有 效 数 字 位 。 所 有 的 可 能 性 都 存储 在 由 lo 908 HR 


引 的 掩 码 表 中 : 


(static data 207) 
unsigned char msbmask[] = { 
OxFF, OxFE, OxFC, OxF8, 
OxFO, OxEO, OxCO, 0x80 
}; 


msbmask[lo%8] 与 字 节 lo / 8 取 或 将 设置 适当 的 位 : 
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(set the most significant bits in byte 10/8 207)= 
set->bytes[10/8] |= msbmask[10%8]; 


在 第 二 个 区 域 ， 每 个 字 节 的 所 有 的 位 都 设 为 1。 


(set all the bits in bytes 10/8+1..hi/8-1 207)= 


1 
int i; 
for (i = lo/8«1; i < hi/8; i++) 
set-»bytes[i] = OxFF; 
} 


hi %8 决 定 着 设置 字 节 hi / 8 中 哪些 位 : 如 果 hi%8 为 0， 只 设置 最 低 有 效 数 字 位 ; 如 果 是 7， 将 
设置 所 有 的 比特 位 。 同 样 ，hi%8 可 用 作 一 个 表 的 索引 ， 以便 选 择 适当 的 掩 码 与 hi /8 取 或 : 


(set the least significant bits in byte hi/8 207)= 
set-»bytes[hi/8] |= lsbmask[hi?68] ; 


(static data 207)+= 
unsigned char lsbmask[] = { 
0x01, 0x03, 0x07, OxOF, 
OxlF, Ox3F, Ox7F, OxFF 
}; 
当 lo 和 hi 指向 同一 个 字 节 中 的 位 时 ， 由 msbmask [10%8 ] 和 sbmask [ hi%8 ] 提供 的 掩 
码 可 以 结合 起 来 设置 适当 的 比特 位 。 例 如 : 
Bit set(set, 9, 13) 
de b SERIA LTETEJÓ SES Tni, REE REPRE MN, WH E 
msbmask [1] fülsbmask [5] 做 与 运算 得 来 的 。 一 般 情 况 下 ， 这 两 个 掩 码 在 应 该 设置 的 比特 位 
部 分 正好 重 登 ， 关 此 处 理 这 种 情况 的 代码 如 下 所 示 : 


(set bits 10%8..hi%8 in byte 10/8 208)= 
set->bytes[10/8] |= (mask for bits 10%8..h1%8 208); 


(mask for bits 10%8..hi%8 208)= 
(msbmask[10%8]&1 sbmask [h1968]) 


Bit_clear 和 Bit_not 同 Bit_set 处 理 类 似 ，msbmask 和 1lsbmask 的 使 用 方法 也 类 似 。 对 
Bit_clear 而 言 ，msbmask 和 lsbmask 提 供 了 分 别 与 字 节 lo /8 和 和 hi 7y8 做 与 的 掩 码 的 补 : 


(functions 203)+= 
void Bit clear(T set, int lo, int hi) { 

(check set, lo, and hi 206) 

if (10/8 < hi/8) 1 
int i; 
set-»bytes[10/8] &- ~msbmask[10%8] ; 
for (i = 10/8+1; i < hi/8; i++) 

set->bytes[i] = 0; 

set-»bytes[hi/8] &- -lsbmask[hi968] ; 

) else 
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set->bytes[10/8] &- -(mask for bits 10%8..hi%8 208); 
} 
Bit_not 必 须 翻 转 从 lo 到 hi 的 比特 位 ， 这 是 通过 与 掩 码 的 或 非 运 算 覆 盖 适 当 的 比特 位 来 实 
现 的 : 


(functions 203)+= 
void Bit not(T set, int lo, int hi) { 
(check set, lo, and hi 206) 

if (10/8 « hi/8) 1 
int i; 
set-»bytes[10/8] A= msbmask[10%8]; 
for (i = 10/8+1; i < hi/8; i++) 

set->bytes[i] A= OxFF; 

set->bytes[hi/8] A= lsbmask[hi*68] ; 

} else 
set->bytes[lo/8] A= (mask for bits 10%8..hi%8 208); 


} 
Bit_map 为 集合 中 的 每 个 位 都 调用 apply 函 数 。 它 传递 位 序号 、 它 的 值 和 客户 调用 程序 提 
供 的 指针 。 


(functions 203)+= 
void Bit_map(T set, 
void applyCint n, int bit, void *c1), void *c) { 
int n; 


assert(set); 
for (n= 0; n« set->length; n++) 
apply(n, (bitn inset 205), c1); 


如 上 所 示 ，Bit_map 用 与 隐 含 在 Bit_get 和 那些 用 位 序号 作为 参数 的 Bit 函 数 中 的 相同 的 编 
号 方式 来 传递 位 。n /8 的 值 每 八 个 字 节 只 改变 一 次 ， 因 此 它 试图 将 每 个 字 节 从 set _> 
bytes[n/8] 中 复制 到 一 个 临时 变量 ,然后 一 次 次 地 通过 移 位 和 掩 码 运 算 来 取出 每 个 比特 位 。 
但 是 这 种 改变 破坏 了 接口 ， 接 口 规定 如 果 apply 改 变 了 它 还 没有 看 到 的 比特 位 ， 则 它 将 在 随 
后 的 调用 中 看 到 新 的 值 。 





13.2.2 比较 


Bit eq 比较 集合 s 和 t， 如 果 它 们 相等 则 返回 1 ， 如 果 不 等 则 返回 0。 这 是 通过 比较 s 和 t 中 相 
对 应 的 无 符号 长 整 型 数 来 完成 的 ， 并且 一 旦 知道 了 s 不 等 于 ， 则 立即 退出 循环 ， 


(functions 203)+= 
int Bit_eq(T s, Tt) ( 
int i; 
assert(s && t); 
assert(s->length == t-» length); 
for (i = nwords(s-»length); --i >= 0; ) 
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if (s-»words[i] != t-»words[i]) 
return 0; 
return 1; 


H 

Bit leq th RE &s ftf Dogs i SET UR EFE., ds ct， 那么 对 s 中 的 每 一 个 值 为 1 
的 位 , t 中 相应 的 位 都 为 1 。 按 照 集合 的 定义 ， 如 果 s 和 t 的 补 集 的 交集 为 空 ， 则 s St。 内 此 ， 
如 果 s&~t 等 于 零 ， 则 s ct; 这 种 关系 在 s 和 t 中 的 每 个 无 符号 长 整 型 数 中 也 都 存在 。 如 果 对 于 
所 有 的 ，s->u.words[i] Ct->u.wordsfi], Ws ct, 一旦 知道 了 输出 结果 ，Bit_leq 利 用 这 种 属 
性 立即 停止 比较 : 

(functions 203)+= 


int Bit leq(T s, T t) { 
int i; 


assert(s && t); 
assert(s-»length == t-»length); 
for (i = nwords(s-»length); --i >= 0; ) 
if (Cs-»words[i]&-t-»words[i]) ! 0) 
return 0; 
return 1; 


} 
如 果 s 是 t 的 一 个 子 集 ， 则 Bit_lt 返 回 值 是 1; MRscthHset, MAsct, xin ust 
s—>u.words[i]&~t—>u.words[i] 为 零 并 旦 至 少 有 一 个 s->u.words[i] 不 等 于 对 应 的 t->u.words[i] 
(functions 203)+= 


int Bit It(T s, T tO { 
int i, 1t = 0; 

















assert(s && t); 
assert(s-»length == t-»length); 


for (i = nwords(s-»length); --i >= 0; ) 
if (Cs-»words[i]&-t-»words[i]) != 0) 
return 0; 
else if (s-»words[i] != t->words[i]) 
It |» 1 
return lt; 


} 
13.2.3 集合 操作 


实现 集合 操作 s+t 、sxt、s-t 和 s /t 的 函数 可 以 一 次 处 理 一 个 长 整 型 操作 数 ， 因 为 这 些 函 
数 的 功能 是 独立 于 位 序号 的 。 这 些 函 数 也 把 空 T 看 作 是 一 个 空 的 集合 ， 但 是 s 和 t 中 的 一 个 集 
合 必须 非 空 ， 以 便 函 数 决定 结果 的 长 度 。 这 些 函 数 有 相似 的 实现 代码 ， 除 了 有 三 个 处 理 的 不 
同 之 处 : s 和 t 指 向 同一 个 集合 时 的 结果 、 它 们 对 空 参数 进行 的 操作 和 它们 怎样 为 两 个 非 空 集 
合 形 成 结果 。 代 码 处 理 的 相似 性 可 以 通过 定义 宏 setop 来 实现 
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(macros 203)+= 
#define setop(sequal, snull, tnull, op) \ 

if (s == t) { assert(s); return sequal; } \ 

else if (s == NULL) { assert(t); return snu]1]; } N 

else if (t == NULL) return tnull; \ 

else { \ 
int i; T set; \ 
assert(s->length == t-»length); \ 
set = Bit_new(s->length); \ 
for (i = nwords(s-»length); --i >= 0; ) \ 

set-»words[i] = s-»words[i] op t->words[i]; \ 

return set; } 


Bit_union{t# f IX HR: 
(functions 203)+= 


T Bit union(T s, T t) { 
setop(copy(t), copy(t), copy(s), |) 





如 果 s 和 t+ 指向 同一 个 集合 ， 函 数 执行 结果 即 为 集合 的 副本 。 如 果 s 或 ! 为 空 ， 函 数 执行 结果 即 
[au] 为 另外 一 个 非 空 的 集合 的 副本 。 和 否则 ， 函 数 执行 结果 是 一 个 集合 ， 该 集合 的 无 符号 长 整 型 值 
是 s 和 ft 中 的 无 符号 长 整 型 值 的 按 位 取 或 。 
私有 函数 copy 分 配 一 个 新 的 与 参数 长 度 相同 的 集合 并 从 它 的 参数 里 复制 位 : 


(static functions 212)= 
static T copy(T t) ( 
T set; 








assert(t); 
set = Bit new(t-»length); 
if (t->length > 0) 
memcpy(set->bytes, t->bytes, nbytes(t->length)); 
return set; 


} 
如 果 它 的 任何 一 个 参数 为 空 的 话 ，Bit_inter 将 返回 一 个 空 的 集合 ; 否则 ， 它 返回 一 个 操 
作 数 按 位 取 与 的 集合 : 


(functions 203)+= 
T Bit_inter(T s, T t) { 
setop(copy(t), 
Bit new(t-»length), Bit new(s--length), &) 


} 
MASA, Ws -+ 是 一 个 空 集合 ,但 是 如 果 t 为 空 ，s -+t 等 于 s 。 如 果 s 和 {t 均 为 非 空 ， 
s -t 是 s 和 的 补 按 位 取 与 ， 当 s 和 和 t 是 相同 的 Bit_T 时 ，s -t 是 一 个 空 集 。 
(functions 203)+= 
T Bit minus(Ts, Tt) ( 
setop(Bit new(s-»length), 
Bit new(t-»length), copy(s), & ~) 
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setop 的 第 三 个 参数 & ~ 导致 的 循环 体 是 : 


set->words[i] = s->words[i] & -t-»words[i]; 


Bit_diff 实 现 了 对 称 差分 ， 用 s /t 表 示 ， 是 s 和 t 按 位 取 或 非 运 算 MRSA, s/t Ft, 


反之 亦 然 。 





(functions 203)+= 
T Bit_diff(T s, Tt) { 


} 


setop(Bit new(s-»length), copy(t), copy(s), A) 


如 上 所 示 ， 当 s 和 (指向 同一 个 Bit_T 时 ，s “t 为 空 集合 。 


参考 书目 浅 析 

Briggs 和 Torczon ( 1993 ) 描述 了 一 个 集合 的 表示 方法 ， 它 被 设计 成 大 的 、 稀 疏 的 集合 ， 
并 可 以 在 固定 的 时 间 初 始 化 这 些 集合 。Gimpel (1974) 引入 了 空间 多 元 集合 ， 练 习 13.5 将 对 
此 进行 描述 。 


练习 


13.1 


13.2 
13.3 


在 稀疏 集合 中 ， 大 部 分 位 都 为 0。 修 改 Bit 的 实现 ， 通 过 不 仓储 集合 中 的 大 量 的 0 元 
素 的 方法 来 节省 Hii BE AY 7 Al 
设计 一 个 接口 ， 使 之 能 支持 Briggs 和 Torczon (1993 ) RARES, LMAO, 
Bit set HH 3f 
for (i = 1o/8«1; i < hi/8; i++) 

set->bytes[i] = OxFF; 
来 设置 从 字 节 lo /8+1 到 hi /8 的 所 有 比特 位 。Bit_clear 和 Bit_not 有 相似 的 循环 。 
WAR GE, BRAGA MAAS KUT IRR. Ree, MRE 
对 字 节 进行 操作 。 你 能 找到 一 个 能 在 执行 期 间 出 现 可 度量 的 性 能 改善 的 应 用 吗 ? 
假定 Bit 函 数 跟踪 一 个 集合 中 的 值 为 1 的 比特 数 。Bit 函 数 能 简化 或 者 改善 什么 ? GE 
现 这 个 想法 并 设计 一 个 测试 程序 来 确定 提高 的 性 能 质量 。 说 明 在 什么 条 件 下 值得 
付出 一 定 的 代价 来 获得 相应 的 好 处 ? 
在 一 个 空间 多 元 集合 (spatially multiplexed set ) 中 ， 比 特 按 字 存 储 。 在 32 位 整 型 
计算 机 上 ， 一 个 带 有 N 个 无 符号 整 型 的 数组 可 以 保存 32 个 N- 比 特 的 集合 。 数 组 的 
SRI 比特 位 的 列 都 是 一 个 集合 。 一 个 只 设置 了 比特 i 的 32 位 的 掩 码 能 识别 出 
列 i 的 集合 。 这 种 表示 方法 的 优点 是 只 执行 这 些 掩 码 就 可 以 在 国定 的 时 间 内 完成 一 
些 操作 。 例 如 ， 对 于 两 个 集合 的 合集 ， 其 掩 码 就 是 两 个 执行 合集 操作 的 集合 掩 码 
的 合集 。 许 多 N- 比 特 的 集合 都 可 以 共享 一 个 N- 字 的 数组 ， 分 配 一 个 新 的 集合 也 就 
是 在 数组 中 分 配 “个 自 出 列 。 这 种 属性 可 以 节省 空间 但 给 存储 管理 增加 了 相当 的 
复杂 度 ， 央 为 实现 必须 跟踪 这 个 N- 字 的 数组 ， 该 数组 具有 N 位 的 任何 值 的 自由 列 。 
用 这 种 方法 重新 实现 Bit; 如 果 需 要 强制 改变 接口 ， 则 重新 设计 一 个 。 
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第 14 章 8 x 化 


标准 C 库 函数 printf 、fprintt 和 vprintf 格 式 化 输出 数据 ，sprintf 和 vsprintf 将 数据 格式 化 到 
字符 串 中 。 这 些 函 数 同一 个 格式 化 字符 串 和 一 个 参数 列表 一 起 被 调用 ， 这 个 参数 列表 中 的 值 
将 被 格式 化 。 格 式 化 是 由 插 人 到 字符 串 的 形式 为 %c 的 转化 说 明 符 (conversion specifier ) 控 
制 的 。%c 的 第 i 次 出 现 将 描述 如 何 格式 化 参数 列表 中 的 第 i 个 参数 ， 参 数列 表 在 格式 字符 申 后 
面 。 而 其 他 的 字符 被 逐 字 复制 。 例 如 ， 如 果 name 是 字符 串 “Array”，count 为 8 M 


sprintf(buf, "The %s interface has Xd functions\n", 
name, count) 


用 字符 串 "The Array interface has 8 functionsm ”填充 buf ， 其 中 nn 通常 是 换行 符 。 转 换 说 明 
符 也 可 以 包含 宽度 、 精 度 和 填充 规范 (padding specification )。 例如， 在 上 面 的 格式 字符 串 
中 用 9606 (RE %d 将 会 用 字符 串 “The Array interface has 000008 functions" 填充 buf 。 

这 些 函 数 虽然 非常 有 用 ， 但 是 ， 至 少 有 四 个 缺点 : 第 一 ,转换 说 明 符 的 设置 是 固定 的 ， 
没有 办 法 来 提供 基于 客户 调用 程序 的 代码 ; 第 二 ， 被 格式 化 的 结果 只 能 在 字符 串 中 被 打印 或 
者 存储 ， 没 有 办 法 定义 一 个 基于 客户 调用 程序 的 输出 程序 ;第 三 个 也 是 最 危险 的 一 个 缺点 是 
sprintf füvsprintf 可 能 试图 输出 比 它 们 所 能 存储 的 字符 串 更 多 的 字符 ， 没 有 方法 规定 输出 字符 
串 的 大 小 ; 最 后 ， 对 在 参数 列表 的 变量 部 分 传递 的 参数 无 法 进行 格式 检查 。Fmt 接 口 解 决 了 
前 三 个 缺点 。 





14.1 接口 


Fmt 接 口 有 11 个 函数 、 一 种 类 型 、 一 个 变量 和 一 个 异常 : 


(fmt.h)s 
#ifndef FMT. INCLUDED 
define FMT. INCLUDED 
#include «stdarg.h» 
#include <stdio.h> 
#include "except.h" 


#define T Fmt_T 
typedef void (*T)Cint code, va_list “app, 
int put(int c, void *c1), void *cl, 
unsigned char flags[256], int width, int precision); 


extern char *Fmt flags; 
extern const Except T Fmt Overflow; 
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{exported functions 216) 
#undef T 
#endif 
从 技术 上 讲 ，Fmt 不 是 一 个 抽象 数据 类 型 ， 但 是 它 的 确 导出 一 种 类 型 Fmt_T ， 此 类 型 定 
义 了 与 每 种 格式 化 代码 相关 联 的 格式 转化 函数 的 类 型 ， 下 面 将 详细 介绍 。 


14.1.1 格式 化 函数 


下 面 是 两 种 基本 的 格式 化 函数 : 


(exported functions 216)= 
extern void Fmt fmt (int put(int c, void *cl), void *cl, 
const char *fmt, ...); 
extern void Fmt vfmt(int put(int c, void *cl), void *cl, 
const char *fmt, va list ap); 


Fmt_fmt 根 据 第 三 个 参数 fmt 给 定 的 格式 字符 串 来 格式 化 它 的 第 四 个 及 以 后 的 参数 ， 并 调用 
put (c, cl) 来 给 出 每 个 已 经 格式 化 的 字符 c; c 被 当 作 无 符号 字符 ,因此 传递 给 put 的 值 始 终 
为 正 。Fmt_vfmt 根 据 格式 化 字符 中 来 格式 化 ap 指 向 的 参数 ， 该 格式 化 字符 中 由 fmt 给 定 ， 做 
法 同 下 面 所 讲 的 Fmt_fmt 类 似 。 

参数 cl 可 以 指向 客户 调用 程序 提供 的 数据 ， 它 仅仅 不 作 解 释 地 被 传递 到 客户 调用 程序 的 
Put 晃 数 中 。put 函 数 返 回 一 个 整 型 值 ， 通常 是 它 的 参数 。Fmt 函 数 不 用 这 种 方法 ， 但 是 该 设计 
允许 在 某 些 机 器 上 当 FILE* 被 当 作 cl 来 传递 时 ， 把 标准 IO 函数 fputc 4 Eput MH 来 用 。 例 如 , 


Fmt fmt((int (*) Cint, void *))fputc, stdout, 
"The %s interface has %d functions\n", name, count) 


当 name 是 Array , count 为 8 时 ， 在 标准 输出 上 输出 

The Array interface has 8 functions 

类 型 转换 是 必需 的 ， 因 为 fputc 有 int(*)(int,FILEx) 型 , 而 put 有 int(*)(int,void*) 型 。 这 种 
用 法 只 有 在 FILE 指 针 有 与 一 个 空 指针 相同 的 表示 方法 时 才 正 确 。 

图 14-1 所 示 的 语法 表 定义 了 转换 说 明 符 的 语法 。 在 转换 说 明 符 中 的 字符 定义 了 一 条 通过 
这 张 图 的 路 径 ， 有 效 的 说 明 符 从 开始 到 结束 走 完 路 径 。 一 个 说 明 符 从 a% 开 始 ， 后 面 是 可 选 
的 标志 字符 ， 其 解释 依赖 于 格式 化 代码 ; 可 选 的 域 为 :宽度 、 周期 和 精度 ; 并 以 一 个 单个 字 
符 的 格式 化 代码 来 结束 ， 如 图 14-1 中 的 C 所 表示 的 那样 。 有 效 的 标志 符 是 那些 出 现在 
Fmt_flags 指 向 的 字符 申 中 的 字符 ; 它们 通常 定义 了 对 齐 (justification )、 补 足 ( padding ) 
和 截取 ( truncation )。 如 果 一 个 标志 字符 在 一 个 说 明 符 中 出 现 次 数 超过 255 次 ， 则 会 产生 可 
检查 的 运行 期 错误 。 如 果 星 号 出 现在 宽度 域 和 精度 域 ， 则 下 一 个 参数 被 假定 为 整 型 并 用 于 宽 
度 域 和 精度 域 。 因 此 ， 一 个 说 明 符 可 以 使 用 任意 多 个 参数 ， 这 依赖 于 是 否 有 星 号 出 现 和 与 格 
式 化 代码 相关 联 的 特殊 的 转换 函数 。 如 果 宽 度 或 者 精度 定义 的 值 等 于 INT_MIN- 多 半 为 
负 整 数 时 ， 则 会 产生 可 检查 的 运行 期 错误 。 
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图 14-1 转换 说 明 符 语法 





标志 、 宽 度 和 精度 的 详细 说 明 依赖 于 与 转换 说 明 符 相关 联 的 转换 函数 。 这 些 函 数 调用 是 
那些 在 调用 Fmt_fmt 时 注册 的 函数 。 

缺 省 的 转换 说 明 符 和 与 它们 相关 联 的 转换 函数 都 是 标准 1/0 库 中 的 printf 函 数 及 相关 函数 
的 子 集 。Fmt_flags 的 初始 值 指向 字符 串 “- + 0”， 央 此 ， EET ABUSER EAE - "-" d 
被 转换 的 字符 串 在 给 定 的 宽度 里 向 左 对 其 (1left-justified ). ”代表 一 个 从 “-” 或 者 “+” 
开始 的 有 符号 的 转换 的 结果 。 空 格 “ ”表示 为 正 时 从 空格 开始 的 有 符号 转换 的 结果 。0 表 示 
数字 转换 ， 用 添 零 的 方法 填充 域 ; 否则 将 使 用 空白 。 一 个 负 值 的 宽度 带 有 标志 “-” 和 相应 
的 正 值 的 宽度 。 精 度 为 负 被 认为 没有 给 定 精 度 。 

在 表 14-1 中 列 出 缺 省 的 转换 说 明 符 。 这 些 转 换 说 明 符 是 定义 在 标准 C 库 里 的 说 明 符 的 子 集 。 

下 述 函 数 同 C 库 函数 printf fprintf 、sprintf 和 vsprintf 类 似 : 

(exported functions 216)+= 

extern void Fmt print (const char *fmt, e); 
extern void Fmt fprint(FILE *stream, 
const char *fmt, ...); 
extern int Fmt sfmt (char *buf, int size, 
const char *fmt, ...): 
extern int Fmt vsfmt(char *buf, int size, 
const char *fmt, va list ap); 

Fmt_fprint 根 据 fmt 给 定 的 格式 化 字符 串 来 格式 化 第 三 个 及 其 后 的 参数 并 把 它 的 已 经 格 
式 化 的 结果 写 到 标准 输出 中 。 

， Fmt_sfmt 根 据 fmt 给 定 的 格式 化 字符 申 来 格式 化 第 四 个 及 其 后 的 参数 ， 并 将 这 些 结 ARE 
为 一 个 以 空 字符 为 结束 标志 的 字符 捉 存 储 在 buf [ 0..size-1 ] 中 。 Fmt_vsfmt 与 此 类 似 ， 只 是 
它 从 可 变 长 度 参数 列表 的 指针 ap 中 获得 参数 。 这 两 个 函数 都 返回 存储 在 buf 中 的 字符 数 ， 结 
束 符 不 计算 在 内 。 如 果 Fmt_sfmt 和 Fmt_vsfmt 给 出 超过 size 个 字符 ( 包含 结束 符 )， 则 它们 将 
引发 异常 Fmt_Overflow 。 如 果 size 非 正 ， 会 产生 可 检查 的 运行 期 错误 。 

下 面 两 个 函数 


(exported functions 216)+= 
extern char *Fmt_string (const char *fmt, ...); 
extern char *Fmt vstring(const char *fmt, va list ap); 
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F]Fmt. sfmtfüFmt, vsfmt2E W, R EÈ TRE PAC E KA SET RRRA R E Il poule trf] 
趾 。 客 户 调用 程序 负责 释放 它们 。Fmt_string 和 Fmt_vstring 都 可 能 引发 Mem_Failed。 
将 一 个 空 的 put 、buf 或 者 fmt 传 递 给 上 面 的 那些 格式 化 函数 都 将 导致 运行 时 出 现 检测 错误 。 


14.1.2 ”转换 函数 
每 个 格式 字符 C 都 与 转换 函数 相关 联 。 这 些 联 系 可 以 通过 调用 下 面 的 函数 来 改变 : 


(exported functions 216)+= 

extern T Fmt register(int code, T cvt); 

Fmt_register 安 装 cyt， 作 为 出 code 提供 的 格式 字符 串 的 转换 函数 ， 并 返回 先前 函数 的 指 
针 。 因 此 客户 调用 程序 可 以 暂时 忽略 转换 函数 ， 然 后 再 恢复 先前 的 函数 。 如 果 code 小 于 0 或 
者 大 于 255 则 会 产生 可 检查 的 运行 期 错误 。 如 果 格 式 字 符 串 使 用 没有 与 格式 化 函数 相关 联 的 
转换 说 明 符 也 会 产生 可 检查 的 运行 期 错误 。 

许多 转换 函数 都 是 使 用 %d 和 %s 转 换 说 明 符 的 函数 的 变种 。Fmt 导 出 两 个 实用 函数 ， 该 
函数 被 它 的 内 部 的 数字 和 字符 中 转换 函数 使 用 。 


(exported functions 216)+= 
extern void Fmt putd(const char *str, int len, 
int put(int c, void *cl), void *cl, 
unsigned char flags[256], int width, int precision); 
extern void Fmt puts(const char *str, int len, 
int put(int c, void *cl), void *cl, 
unsigned char flags[256], int width, int precision); 
Fmt putd [B jE str [0..len-1] 带 有 一 个 无 符号 数 的 字符 串 表示 形式 ,并 根据 转换 来 发 送 字符 串 ， 
其 中 转换 是 帆 表 14-1 中 描述 的 %d 的 flags 、width 和 precision 来 定义 的 。 类 似 地 ，Fmt_puts 也 
根据 表 14-1 中 描述 的 %s 的 flags width 和 precision 定 义 转换 来 发 送 字符 中 。 将 一 个 空 的 str 、 
一 个 负 的 len 、 一 个 空 的 flags 或 者 一 个 空 的 put 传 递 给 Fmt_putd 或 者 Fmt_puts 都 会 产生 可 检查 


的 运行 期 错误 。 





表 14-1 缺 省 的 转换 说 明 符 








描述 符 参 数 类 型 jh £ 
c int i 该 参数 被 当 作 无 符号 字符 来 说 明和 发 送 
d int 该 参数 被 转换 成 有 符号 十 进 制 形式 。 如 果 给 定 了 精度 ， 则 定义 数字 的 最 小 值 ; 如 果 必 要 


话 ， 前 面 要 加 零 。 缺 省 的 精度 值 是 “-"-。 如 果 “-” 和 “0” 标 志 都 出 现 ， 或 者 给 定 了 精度 ， 
则 忽略 “0” 标 志 。 如 果 “+ ”和 空格 标志 癌 时 出 现 ， 则 忽略 空 属 标志 。 如果 参量 和 精度 均 
为 零 ， 则 在 转换 结果 中 没有 字符 。 





oux unsigned 型 参数 被 转换 成 无 符号 型 的 8 进 制 (0 )、 十 进 制 (u ) 或 者 16 进 制 OO 的 形式 。 对 于 16 进 制 ， 
超过 9 的 数 将 用 abcdef 六 个 字母 来 表示。 标志 和 精度 的 说 明 站 4 中 标志 和 精度 的 说 明 类 似 。 
f double 3 该 参数 被 转换 成 十 进 制 x.y 的 表示 形式 。 精度 给 出 了 小 数 点 右面 的 数值 的 位 数 ， 缺 省 为 6。 


如 果 明 确 说 明 精 度 为 零 ， 则 小 数 点 被 忽略 。 如 果 带 小 数 点 ， 则 x 全 少 有 一 位 数 。 精 度 超过 
99 会 产生 可 检查 的 运行 期 错误 。 标 志和 精度 的 说 明 dd 小 标志 和 精度 的 说 明 类 似 。 
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(E) 
描述 符 参 数 类 型 fe — YR 
e double #4 该 参数 被 转化 成 十 进 制 x.ye + 的 表示 形式 。 其 中 x 总 是 一 位 数 而 总 是 两 位 数 。 标 志 和 精 
BEAR Uh BH Tid rts ads 和 精度 的 说 明 类 似 。 
g double XJ 该 参数 根据 它 的 值 被 转换 成 { 型 或 者 e 型 的 表示 方式 。 精度 的 缺 省 值 是 一 。 如 果 p 小 于 -4 或 


者 大 于 等 于 精度 ， 则 结果 写成 zye +p 的 表示 形式 ; 否则 写成 ty 的 形式 。 y 后 面 没有 零 ， 如 
果 》 为 零 ， 则 小 数 点 被 省 略 。 精 度 超 过 99 会 产生 可 检查 的 运行 期 错误 。 


p void * 该 参数 将 其 值 由 十 进 制 转换 成 16 进 制 。 标 志和 精度 的 说 明 同 d 中 标志 和 精度 的 说 明 类 似 。 
s char * 来 自 该 参数 的 连续 字符 将 被 发 送 ， 直 到 遇 到 一 个 空 字符 或 者 所 有 给 定 精度 的 字符 均 被 发 


送 完 为 小， 此 时 除 “- ”外 ， 其 他 的 标志 均 被 忽略 。 


Fmt_putd 和 Fmt_puts 本 身 不 是 转 换 函 数 ， 但 是 它们 可 以 被 转换 函数 调用 。 当 写 基 于 客户 
调用 程序 的 转换 函数 时 ， 它 们 是 最 有 用 的 。 下 面 将 进行 说 明 。 

Fmt_T 定 义 了 转换 函数 的 签名 (signature ) 一 一 即 它 的 参数 的 类 型 和 它 的 返回 类 型 。 转 
换 函 数 由 7 个 参数 来 调用 。 前 两 个 是 格式 化 代码 和 一 个 指向 可 变 长 度 参 数列 表 指针 的 指针 ， 
其中 参数 列表 指针 用 来 访问 要 被 格式 化 的 数据 。 第 三 个 和 第 四 个 参数 是 客户 调用 程序 的 数据 
函数 和 相关 的 数据 。 后 三 个 参数 是 标志 、 域 的 宽度 和 精度 。 标 志 由 含 256 个 元 素 的 字符 数组 
来 给 定 ， 其 中 第 i 个 元 素 等 于 标志 字符 在 转换 说 明 符 里 出 现 的 次 数 。 当 width 和 precision 没 有 
明确 给 定时 ， 等 于 INT_MIN。 

转换 函数 必须 使 用 如 下 表达 方式 

va_arg(*app, type) 

来 获得 参数 ， 其 中 这 些 参数 将 要 根据 与 转换 函数 相关 联 的 代码 来 格式 化 。type 是 所 期 望 的 参 
数 类 型 。 该 表达 获得 参数 的 值 ， 然 后 增加 *app 以 便 指 向 下 一 个 参数 。 如 果 转 换 函 数 错误 地 增 
加 了 *app ， 则 会 产生 可 检查 的 运行 期 错误 。 

FEmt 对 代码 %s 的 私有 转换 函数 说 明了 怎样 写 转换 函数 和 怎样 使 用 Fmt_puts 。 说 明 符 os 
类 似 于 printf 的 %s: 它 的 函数 发 送 字符 串 中 的 字符 ， 直 到 遇 到 空 字符 或 者 将 给 定 精度 的 所 有 
字符 都 发 送 完 为 止 。”- ”标志 或 者 负 的 宽度 说 明 要 向 左 对 齐 Cleft-justification ). $E% BR 
使 用 va_arg 从 可 变 长 度 参数 列表 中 取出 参数 ， 并 调用 Fmt_puts ; 


(conversion functions 222)= 
static void cvt s(int code, va list *app, 
int put(int c, void *c1), void *cl, 
unsigned char flags[], int width, int precision) ( 
char *str = va arg(*app, char *); 


assert(str); 
Fmt puts(str, strlen(str), put, cl, flags, 
width, precision); 
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Fmt_puts ff? flags . width 和 precision ， 并 相应 的 发 出 字符 申 : 
(functions 222)= 
void Fmt puts(const char *str, int len, 
int putCint c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


assert(str); 
assert(len >= 0); 
assert(flags); 
(normalize width and flags 223) 
if (precision >= 0 && precision « len) 
len = precision; 
if C!flags['-']) 
pad(width - len, ' '); 
(emit str[0..1en-1] 223) 
if C flags['-']) 


pad(width - len, ' '5; 
} 
(emit str [0..1en-1] 223)= 
{ 
int i; 


for Ci = 0; i < len; i++) 
put(Cunsigned char)*str++, c1); 


对 无 符号 型 字符 进行 类 型 转换 将 确保 传递 给 put 的 值 总 是 小 的 、 正 的 整数 ， 就 像 在 Fmt 的 
定义 里 规定 的 那样 。 

如 果 忽略 宽度 和 精度 ， 则 width 和 precision 等 于 INT_MIN 。 该 接口 为 基于 客户 调用 程序 
的 转换 函数 使 用 所 有 的 宽度 ( 被 明确 说 明 的 或 被 省 略 的 )、 精 度 和 重复 标志 的 组 合 提供 所 需 
的 灵活 性 。 但 是 缺 省 的 转换 不 需要 这 样 ， 它 们 把 所 忽略 的 宽度 当 作 0 宽度 ， 把 负 宽度 当 作 带 
有 “-” 标 志 的 相应 的 正 宽 度 ， 把 负 的 精度 忽略 ， 把 重复 出 现 的 标志 看 作 只 出 现 一 次 等 。 如 
果 有 明确 的 精度 ， 则 忽略 0 标 坟 ， 并 且 ， 如 上 所 示 ， 至 多 有 precision 个 字符 从 str 中 发 出 。 





(normalize width and flags 223) 
(normalize width 223) 
(normalize flags 224) 


{normalize width 223) 
if (width == INT MIN) 
width = 0; 
if (width « 0) { 
flags['-'] 2 1; 
width = -width; 
} 
(normalize flags 224)= 
if (precision >= 0) 
flags['0'] = 0; 
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正如 调用 pad 所 显示 的 ， 必 须发 送 width-len 个 空格 以 正确 地 对 齐 输 出 : 


(macros 224)= 
#define pad(n,c) do { int nn = (m; \ 
while (nn-- > 0) N 
put((c), cl); } while (0) 


pad 是 宏 定 义 ， 因 为 它 要 访问 put 和 cl 。 
下 一 节 将 描述 其 他 缺 省 的 转换 函数 的 实现 。 


14.2 实现 


Fmt 的 实现 包括 在 接口 中 定义 的 函数 、 与 默认 转换 说 明 符 相 关联 的 转换 函数 和 将 转换 说 
明 符 映射 到 转换 函数 的 表 。 


(fmt.o=z 

#include «stdarg.h» 
#include <stdlib.h> 
#include <stdio.h> 
#include <string.h> 
#include <limits.h> 
#include <float.h> 
#inctude <ctype.h> 
#include <math.h> 
#include "assert.h" 
#include "except.h" 
finclude "fmt.h" 
finclude "mem.h" 
#define T Fmt T 


(types 226) 

(macros 224) 224 
(conversion functions 222) 

(data 225) 

(static functions 225) 

(functions 222) 


(data 225)= 
const Except T Fmt Overflow = { "Formatting Overflow" ); 


14.2.1 格式 化 函数 


Fmt_vfmt 是 实现 的 核心 ， 因 为 所 有 其 他 的 接口 函数 都 要 调用 它 来 完成 格式 化 。Fmt_fmt 
是 最 简单 的 例子 ， 它 初始 化 参量 列表 的 变量 部 分 的 指针 va_list， 并 调用 Fmt_vfmt: 


(functions 222)+= 
void Fmt fmt(int put(int c, void *), void *c], 
const char *fmt, ...) { 
va list ap; 
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va_start(ap, fmt); 
Fmt_vfmt(put, cl, fmt, ap); 
va_end(ap); 
} 
Fmt_print 和 Fmt_fprint 将 调用 Fmt_vfmt， 并 把 outc 当 作 put 函数 、 把 标准 和 输出 流 或 者 给 定 
的 流 当 作 相 关 数 据 : 


(static functions 225)= 
static int outc(int c, void *cl) { 


FILE *f = cl; 
return putc(c, f); 
} 
(functions 222)+= 
void Fmt print(const char *fmt, ...) { 
va_list ap; 


va_start(ap, fmt); 
Fmt vfmt(outc, stdout, fmt, ap); 


va_end(ap); 
} 
void Fmt fprint(FILE *stream, const char *fmt, ...) { 
va list ap; 
va start(ap, fmt); 
Fmt vfmt(outc, stream, fmt, ap); 
va. end(ap) ; 
} 


Fmt_sfmt 调 用 Fmt_vsfmt: 


(functions 222)+= 
int Fmt sfmt(char *buf, int size, const char *fmt, ...) { 
va_list ap; 
int len; 


va start(ap, fmt); 

len = Fmt vsfmt(buf, size, fmt, ap); 
va, end(ap) ; 

return len; 


} 
Fmt_vsfmt 用 put 函 数 和 一 个 结构 指针 来 调用 Fmt_vsfmt ， 其 中 结构 指针 跟踪 被 格式 化 进 
buf 的 字符 串 和 此 字符 串 所 带 有 的 字符 的 数目 : 


(types 226)= 
struct buf { 
char *buf; 
char *bp; 
int size; 


}; 
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buf 和 size 是 Fmt_vsfmt 有 类 似 命名 的 参数 的 备份 ，bp 指向 buf 中 下 一 个 被 格式 化 的 字符 要 存储 
的 位 置 。Fmt_vsfmt 初 始 化 该 结构 的 一 个 局 部 实例 ， 并 将 它 的 一 个 指针 指向 FEmt_vfmt : 226 


(functions 222)+= 
int Fmt vsfmt(char *buf, int size, const char *fmt, 
va list ap) { 
struct buf cl; 


assert(buf); 
assert(size » 0); 
assert(fmt); 
cl.buf = cl.bp = buf; 
cl.size = size; 
Fmt vfmt(insert, &cl, fmt, ap); 
insert(O, &cl1); 
return cl.bp - cl.buf - 1; 
} 


于 面 对 Fmt_vfmt 的 调用 使 用 了 私有 函数 insert 和 每 个 要 发 送 的 字符 ， 还 有 Fmt_vsfmt 的 局 
部 buf 结 构 指针 。insert 用 来 检测 是 否 有 容纳 字符 的 空间 ， 并 把 它 存储 在 由 bp 域 给 定 的 位 置 ， 
然后 再 增加 bp 域 的 大 小 : 


(static functions 225)+= 
static int insert(int c, void *cl) { 
struct buf *p = cl; 


if (p->bp >= p->buf + p->size) 
RAISE (Fmt_Overf tow) ; 

*p->bp++ = c; 

return c; 


} 
Fmt string 和 Fmt_vstring 有 类 似 的 实现 方式 ， 只 是 它们 使 用 不 同 的 put 函 数 。Fmt_string 
要 调用 Fmt_vstring 函数 ; 
(functions 222)+= 
char *Fmt string(const char *fmt, ...) { 


char *str; 
va_list ap; 


assert(fmt) ; 

va_start(ap, fmt): 

str = Fmt_vstring(fmt, ap); 227 
va_end(ap); 
return str: 


} 


Fmt_vstring 将 一 个 buf 结 构 初始 化 为 一 个 能 容纳 256 个 字符 的 字符 串 中 ， 并 将 该 结构 的 指 
针 传递 给 Fmt_vfmt: 
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(functions 222)+= 
char *Fmt_vstring(const char *fmt, va_list ap) { 
struct buf cl; 


assert(fmt); 

cl.size = 256; 

cl.buf = cl.bp = ALLOC(cl.size); 

Fmt vfmt(append, &cl, fmt, ap); 

append(O, &cl); 

return RESIZE(cl.buf, cl.bp - cl.buf); 
} 


append 同 Fmt_vsfmt 的 put 函 数 类 似 ， 只 是 它 在 必要 时 ， 能 将 空闲 的 字符 串 的 长 度 加 倍 ， 
以 便 能 容纳 更 多 格式 化 的 字符 。 


(static functions 225)+= 
static int append(int c, void *c1) { 
struct buf *p = cl; 


if (p->bp >= p->buf + p->size) { 
RESIZE(p->buf, 2*p->size); 
p->bp = p->buf + p-»size; 
p->size *= 2; 

} 

*p->bp++ = c; 

return c; 


} 


当 完 成 Fmt_vstring 后 ， 出 buf 域 指向 的 字符 串 可 能 太 长 了 ， 这 就 是 为 什么 FEmt_vstring 要 
调用 RESIZE 来 释放 超出 的 字符 的 原因 。 
该 轮 到 FPmt_vfmt 了 。 它 解释 了 每 个 格式 化 字符 申 ， 并 为 每 个 格式 化 说 明 符 调用 适当 的 函 
数 ， 而 对 格式 化 字符 串 中 的 其 他 字符 ， 将 调用 put 函 数 : 
(functions 222)+= 


void Fmt vfmt(int put(int c, void *c1), void *cl, 
const char *fmt, va_list ap) { 


assert(put); 
assert(fmt); 
while (*fmt) 
if (*fmt != 'X' || *++fmt == '%') 
put((unsigned char)*fmtee, c1); 
else 


(format an argument 229) 


«format an argument 229>HI X 分 工作 是 使 用 flags 、width 和 precision ， 并 处 理 转换 
说 明 符 没有 相应 的 转换 函数 的 可 能 性 。 在 下 面 的 代码 中 ， 将 width 赋 给 宽度 域 ， 而 将 
precision 赋 给 精度 域 。 


(format an argument 229)= 


Be X 
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} 


unsigned char c, flags[256]; 

int width = INT MIN, precision = INT. MIN; 
memset(flags, 'NO', sizeof flags); 

(get optional flags 230) 

(get optional field width 231) 

(get optional precision 232) 

c = *fmt++; 

assert(cvt[c]); 

Ccvt[c]) Cc, &ap, put, cl, flags, width, precision): 


cvt 是 一 个 指向 转换 函数 的 指针 数组 ， 它 由 一 个 格式 化 字符 来 索引 。 在 上 述 代码 中 ， 将 声明 
为 一 个 无 符号 字符 ， 以 确保 *fmt 被 解释 成 一 个 0 ~ 255 之 间 的 整数 。 
假定 按 ASCII 码 排序 ， 则 cvt 被 初始 化 成 带 有 缺 省 转换 说 明 符 的 转换 函数: 


(data 225) 
static T cvt[256] = { 
/* 0- 7 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/*  8- 15 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 16-23 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 24- 34 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 32- 39 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 40- 47 */ Q, 0, 0, 0, 0, 0, 0, 0, 
/* 48- 55 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 56- 63 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 64- 71 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 72- 79 */ 0， 0, O, 0, 0, 0, 0, 0, 
/* 80- 87 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 88- 95 */ 0, 0, 0, 0, 0, 0, 0, 0, 
/* 96-103 */ Q, 0, 0, cvt_c, cvt d, cvt f, cvt. f, cvt. f, 
/* 104-111 */ 0, 0, 0, 0, 0, 0, 0, cvt o, 
/* 112-119 */ cvt. p, 0, 0, cvt. s, 0, cvt. u, 0, 0, 
,120-127 */ cvt x, 0, O, 0, 0, 0, 0, 0 


Fmt_register 通 过 将 一 个 指向 它 的 指针 存储 到 cvt 适 当 的 元 素 中 的 方法 来 安装 一 个 新 的 转 
换 函 数 。 它 返回 那个 元 素 原 先 的 值 : 


(functions 222)+= 
T Fmt register(int code, T newcvt) { 


} 


T old; 


assert(0 < code 
&& code « (int)(sizeof (cvt)/sizeof (cvt[0]))); 
old = cvt[code]; 
cvt[code] = newcvt; 
return old; 


扫描 转换 说 明 符 的 代码 块 遵循 图 14-1 中 的 语法 ， 在 运行 时 增加 fmt . 第 一 个 说 明 符 使 用 


flags : 
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(data 225)+= 
char *Fmt flags = "-+ 0"; 


(get optional flags 230)= 
if (Fmt flags) ( 


unsigned char c = *fmt; 
for ( ; c && strchr(Fmt flags, c); c = *++fmt) ( 


assert(flags[c] « 255); 
flags[c]++; 
} 
第 二 个 说 明 符 使 用 width ; 


(get optional field width 231)= 


if (*fmt == '*' || isdigit(*fmt)) { 
int n; 
(n e- next argument or scan digits 231) 
width = n; 

} 


宽度 和 精度 中 可 以 出 现 星 号 ， 在 这 种 情况 下 ， 下 一 个 整 型 参数 将 提供 它们 的 值 。 


(n e next argument or scan digits 231)= 
if (fmt == '*') { 
n = va_arg(ap, int); 
assert(n != INT_MIN); 
fmt++; 
} else 
for (n = 0; isdigit(*fmt); fmt++) ( 
int d = *fmt - '0'; 
assert(n <= (INT. MAX - d)/10); 
n = 10*n +d; 
} 


IE BAX BR REL S ASIN ABE, ， 当 一 个 参数 定义 了 宽度 和 精度 ， 就 不 能 定义 INT_MIN ( 缺 省 
值 )。 如 果 要 明确 给 定 宽度 和 精度 ， 则 它们 不 能 超过 INT_MAX ， 即 约束 条 件 是 10 nds 
DS BNO + n+d 不 能 溢出 。 该 测试 不 能 造成 溢出 ， 所 以 在 上 述 断 言 代码 中 叉 重 





INT MAX 
新 声明 了 约束 条 件 。 
231 下 面 的 循环 声明 了 一 个 渐进 的 可 选 的 精度 : 
(get optional precision 232) 
if (*fmt == '.' && (*++fmt == '*' || isdigit(*fmt))) { 
int n; 


(n — next argument or scan digits 231) 
precision = n; 


} 
注意 : HUR "BS UGTA ANE LS, GREKE, UR ROV He NE. 
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14.2.2 转换 函数 

9s 的 转换 函数 cyt_s 在 14.1.2 节 有 所 描述 。cvt_d 是 %d 的 转换 函数 ， 它 是 典型 的 格式 化 数 
字 的 函数 。 它 获得 整 型 参数 ， 然 后 把 它 转化 成 一 个 无 符号 整 型 ， 并 在 局 部 缓冲 区 中 产生 一 个 
字符 串 ， 最 高 有 效 数字 位 优先 ， 然 后 再 调用 Fmt_putd 输 出 字符 串 。 





(conversion functions 222)+= 
static void cvt d(int code, va list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) ( 
int val = va arg(*app, int); 
unsigned m; 
(declare buf and p, initialize p 233) 


if (val == INT. MIN) 
m = INT MAX + 1U; 
else if (val « 0) 
m = -val; 
else 
m = val; 
do 
*--p = m%10 + '0'; 
while C(m /- 10) > 0); 
if (val < 0) 
*--p = '-'; 
Fmt putd(p, (buf + sizeof buf) - p, put, cl, flags, 
width, precision); 


} 


(declare buf and p, initialize p 233)= 
char buf[43]; 
char *p = buf + sizeof buf; 


cvt_d 完 成 无 符号 的 算术 转换 ， 原 因 与 Atom_int 相 同 。 请 参见 3.2 节 ， 堵 里 也 解释 了 为 什 
么 buf 有 43 个 字符 。 


(functions 222)+= 
void Fmt putd(const char *str, int len, 
int putCint c, void *c1), void *cl, 
unsigned char flags[], int width, int precision) { 
int sign; 


assert(str); 

assert(len >= 0); 
assert(flags); 
(normalize width and flags 223) 
(compute the sign 233) 

{ (emit str justified in width 234) } 


ae 


172 £143 





Fmt_putd 必 须发 送 由 flags 、width 和 precision 定 义 的 str 中 的 字符 串 。 如 果 给 定 精度 ， 则 
它 定 义 了 必须 显示 的 数字 的 最 小 个 数 。 有 许多 数字 需要 输出 ， 上 其 中 可 能 需要 在 前 面 补 等 。 
Fmt_putd 先 确定 是 否 需 要 一 个 标记 或 者 在 前 面 补 零 ， 然 后 青 给 者 个 字符 设置 sign: 


(compute the sign 233)= 


if (len > 0 && (*str == '-' || *str == '+')) { 
sign = *str++; 
len--; 
) else if (flags['+']) 
Sign = '«'; 
else if (flags[' ']) 
sign =' '; 
else 
sign = 0; 


233| 在 <compute the sign 233> 中 证 语句 的 顺序 实现 了 “+” 标 记 优先 于 空格 标记 的 规则 。 转 换 结 
果 的 长 度 n 取 决 于 精度 、 被 转换 的 值 和 标记 : 


(emit str justified in width 234) 

int n; 

if (precision « 0) 
precision - 1; 

if (len « precision) 
n = precision; 

else if (precision == 0 && len == 1 && str[0] == '0') 
n= 0; 

else 
n = len; 

if (sign) 
n++; 


nE AG KAY AE, A BUR Ah REER E EUR PG, TESOL. RE 
换 后 的 结果 中 的 字符 。 

如 果 输 出 是 左边 对 齐 的 ， 则 Fmt_putd 可 以 发 送 标记 ; 否则 ， 如 果 输 出 是 左面 补 零 右边 对 
齐 ， 则 Fmt_putd 发 送 标记 和 实际 的 值 ;， 如 果 输 出 是 左面 补 空格 右面 对 齐 ， 则 Fmt_putd 发 送 实 
际 的 值 和 标志 。 


(emit str justified in width 234)+= 
if (Flags['-']) { 
(emit the sign 234) 

} else if (flags['0']) { 
(emit the sign 234) 
pad(width - n, '0'); 

} else { 
pad(width - n, ' '); 
(emit the sign 234) 


} 


(emit the sign 234)= 
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if (si gn) 
put(sign, cl); 


Fmt_putd 可 以 完整 地 发 送 转换 后 的 结果 。 如 果 规 定 了 精度 ， 则 包括 前 面 的 零 ， 如 果 输 出 
是 左 对 齐 的 ， 则 只 包括 实际 的 值 。 


(emit str justified in width 234)+= 
pad(precision - len, '0'); 
(emit str [0..1en-1] 223) 
if Cflags['-']D 

pad(width - n, ' '); 


cvt_u 比 cvt_d 更 简单 ， 但 是 它 使 用 Fmt_putd 的 所 有 机 制 来 发 送 转换 结果 。 它 为 下 一 个 无 
符号 整 型 发 送 十 进 制 表示 形式 : 


(conversion functions 222)+= 
static void cvt u(int code, va list *app, 
int putCint c, void *c1), void *c1, 
unsigned char flags[], int width, int precision) f 
unsigned m = va arg(*app, unsigned) ; 
(declare buf and p, initialize p 233) 


do 
*--p = m%10 + 'O'; 

while (Cm /= 10) > 0); 

Fmt_putd(p, (buf + sizeof buf) - P. put, cl, flags, 
width, precision); 


} 
八进制 和 十 六 进 制 的 转换 同 无 符号 十 进 制 转换 类 似 ， 只 是 输出 底数 不 同 ， 它 简化 了 转换 


本 身 。 


(conversion functions 222)+= 
static void cvt o(int code, va list *app, 
int put(int c, void *cl), void *c], 
unsigned char flags[], int width, int precision) { 
unsigned m = va arg(*app, unsigned); 
(declare buf and p, initialize p 233) 


do 

*--p = (m&Ox7) + '0'; 235 
while (Cm >>= 3) != 0); 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 

width, precision): 


} 


Static void cvt x(int code, va_list *app, 
int put(int c, void *cl), void *c], 
unsigned char flags[], int width, int precision) { 
unsigned m - va arg(*app, unsigned); 
(declare buf and p, initialize p 233) 
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(emit m in hexadecimal 236) 


} 


(emit m in hexadecimal 236)= 
do 
*--p = "0123456789abcdef" [m&0xf]; 
while ((m >>= 4) != 0); 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 
width, precision); 


cvt_p 以 十 六 进 制 发 送 指 针 。 这 里 忽略 精度 和 除 “-” 之 外 的 所 有 的 标志 。 参 数 是 指针 ， 
并 且 把 它 转 换 成 一 个 无 符号 长 整 型 数 ， 然 后 在 该 指针 中 进行 转换 ， 央 为 无 符号 型 所 占 空 间 不 
会 大 于 指针 。 
(conversion functions 222)+= 
static void cvt p(int code, va list *app, 
int putCint c, void *c1), void *cl, 
unsigned char flags[], int width, int precision) { 


unsigned long m = (unsigned Jong)va arg(*app, void*); 
(declare buf and p, initialize p 233) 


precision = INT. MIN; 
(emit m in hexadecimal 236) 


} 
cvt_c 是 与 %c 相 关联 的 转换 函数 ,， 它 格式 化 单个 的 字符 , width 个 字符 向 左 或 者 向 右 对 齐 。 
它 忽略 了 精度 和 其 他 标志 。 


(conversion functions 222)+= 
Static void cvt_c(int code, va list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
(normalize width 223) 
if C!flags['-'j) 
pad(width - 1, ' '); 
put((unsigned char)va arg(*app, int), cl); 
if ( flags['-']) 
pad(width - 1, ' '); 


evt. caf — "T eR AES RE. A ES BO WE b fex OE SOR IBID Y Bh S 
数 的 作用 ， 内 此 要 转化 成 整数 再 传递 。cvt_c 将 整 型 结果 转换 成 一 个 无 符号 字符 以 便 有 符号 
的 、 无 符号 的 和 无 格式 的 字符 都 能 以 相同 的 方式 发 送 。 

要 以 独立 于 机 器 的 方式 将 一 个 浮 点 数 转换 成 精确 的 十 进 制 数 是 很 困难 的 。 某 于 硬件 的 算 
法 更 快 也 更 精确 ， 因 此 ， 与 <、f 和 g 等 转换 说 明 符 相关 联 的 转换 函数 用 下 面 的 代码 将 val Hy 
对 值 转化 到 buf 中， 然后 再 发 送 buf。 


(format a double argument into buf 237) 
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static char fmt[] = "%.dd?"; 
assert(precision «- 99); 

fmt[4] code; 

fmt[3] precision%10 + '0'; 

fmt[2] = (precision/10)*10 + '0'; 
sprintf(buf, fmt, va arg(*app, double)); 


} 
浮 点 型 转换 说 明 符 之 间 的 区 别 在 于 它们 怎样 格式 化 浮 点 型 值 的 各 个 部 分 。 最 长 的 输出 来 
自 说 明 符 %.99f ， 可 能 需要 DBL_MAX_10_EXP+1+1+99+1 个 字符 . DBL MAX 10 EXP 和 
DBL_MAX 是 在 标准 头 文件 float.h 中 定义 的 。DBL_MAX 是 能 用 双 精 度 表 示 的 最 大 的 值 ， 
DBL_MAX_10_EXP 是 logloDBL_MAX， 即 这 是 能 够 由 一 个 双 精 度数 表示 的 最 大 的 十 进 制 位 
数 。 对 于 在 IEEE 754 格 式 中 的 64 比 特 双 精度 数 ，DBL_MAX 为 1.797693 x 10308 , 
DBL_MAX_10_EXP 为 308 。fmt (2] 和 fmt [3] 的 分 配 假定 按照 ASCH 排 序 序列 进行 。 
因此 ， 如 果 DBL_MAX 被 转化 成 转换 说 明 符 %.99f 说 明 的 形式 ， 则 结果 包括 小 数 点 之 前 
的 DBL_MAX_10_EXP+1 位 数 、 小 数 点 、 小 数 点 后 99 位 数 和 一 个 空 的 结束 符 。 将 精度 限制 在 
99 即 是 限制 了 容纳 转换 结果 所 需 的 缓冲 区 的 大 小 ,并 使 之 在 编译 时 能 被 识别 。 来 自 其 他 转换 
说 明 符 %e 和 %g 的 转换 结果 ， 比 %f 的 结果 所 带 的 字符 要 少 。cvt_f 处 理 所 有 这 三 部 分 的 代码 
WF: 
(conversion functions 222)+= 
static void cvt f(int code, va list *app, 
int putCint c, void *cl), void *cl, 


unsigned char flags[], int width, int precision) 1 
char buf[DBL MAX 10. EXP1«149941] ; 


if (precision « 0) 
precision - 6; 

if (code == 'g' && precision == 0) 
precision - 1; 

(format a double argument into buf 237) 

Fmt putd(buf, strien(buf), put, cl, flags, 
width, precision); 


参考 书目 浅 析 


Plauger (1992 ) 描述 了 C 库 函数 printf 输 出 函数 家 族 的 实现 ,包括 将 字符 串 转换 成 浮 点 
型 值 或 将 浮 点 型 值 转换 成 字符 串 型 值 的 底层 代码 。 它 的 代码 也 显示 了 怎样 实现 其 他 的 printf 
风格 的 格式 化 标志 和 代码 。 

Hennessy 和 Patterson (1994 ) 中 第 4.8 节 描述 了 IEEE 754 浮 点 标准 和 浮 点 型 加 法 和 乘法 
的 实现 。Goldberg (1991 ) 研究 了 程序 员 最 关心 的 浮 点 卉 算术 的 属性 。 

浮 点 型 转换 已 经 被 实现 了 很 多 次 ， 但 是 出 于 它们 很 容易 变 得 不 精确 或 者 太 慢 ， 从 而 需要 
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ARE HAE th. x36 HG Be Bd A FR ARR E — TR Be, Sa Ae — TET, 

Ff ARRATI BP B^ AE Py ix dee — Be, Clinger (1990) 描述 了 怎样 精确 地 实 
现 输入 转换 ， 还 描述 了 对 于 一 些 xz 的 任意 精度 的 转换 算法 。Steele 和 White ( 1990 ) 描述 了 怎 
样 实现 一 个 精确 的 输出 转换 。 





练习 


14.1 Fmt_vstring 使 用 RESIZE 来 释放 返回 的 字符 串 中 不 使 用 的 部 分 。 设 计 一 种 方法 ， 使 
得 可 以 只 有 在 值得 释放 的 时 候 才 完成 释放 ， 即 当 所 释放 的 空间 值得 为 释放 它 所 付 
出 的 代价 时 才 完 威 释放 。 

14.2 使 用 Steele 和 White (1990 ) 中 描述 的 算法 ， 实 现 e 、f 和 g 的 转换 ， 

14.5 每 一 个 转换 函数 ， 它 带 有 来 自 下 一 个 整 型 参数 的 转换 说 明 符 ， 并 将 它 和 字符 @ 相 
关联 。 例 如 : 
Fmt string("The offending value is %@\n", 

x.format, x.value); 

将 根据 x.format 中 所 带 的 格式 化 代码 来 格式 化 x.value 。 

14.4 号 一 个 转换 函数 ， 来 发 送 整 型 序列 Bit_T 中 的 元 素 ， 序 列 中 是 以 范围 划分 的 各 个 数 
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C 本 质 上 不 是 处 理 字 符 串 的 语言 ， 但 是 它 确实 包含 处 理 字符 型 数组 的 工具 ,通常 这 些 字 
符 型 数组 被 称 为 字符 串 。 一 般 来 说 ， 一 个 Y 字 符 的 字符 串 就 是 一 个 N+I 个 字符 串 的 数组 ， 其 
中 第 N+1 个 字符 是 空 字符 ， 即 它 的 值 为 零 。 

C 语 言 本 身 只 有 两 个 用 米 处 理 字符 中 的 特性 。 字 符 指针 可 以 用 来 移动 字符 数组 ， 并 且 字 
符 串 可 以 用 来 初始 化 字符 数组 。 例 如 ， 

char msg[] = "File not found"; 

是 
char msg[] = ( 'F', 'i', '1', 'e', ' ', "n', 'o', 't', 
tn Tf, Tot, tut, nt, 'd', '\0' 3; 
的 快捷 方式 。 顺 便 提 一 下 ， FERE, Eu E". A TE EB, BLE A 
sizeof “F ”等 于 sizeof (int) 的 原因 。 
字符 串 也 可 以 表示 给 定 字符 的 初始 化 数组 。 例 如 ， 


char *msg - "File not found"; 
等 价 于 
static char t376[] = "File not found"; 


char *msg = t376; 
其 中 t376 是 由 编译 器 产生 的 内 部 名 。 

在 任何 可 以 用 只 读数 组 名 的 地 方 都 可 以 使 用 字符 串 。 例 如 ,Fmt 的 cvt_x 在 下 面 的 表述 中 
使 用 字符 串 : 

do 


*--p = "0123456789abcdef" [m&Oxf] ; 
while ((m >>= 4) != 0); 


来 等 价 于 下 面 的 宛 长 的 表述 : 


{ 
static char digits[] = "0123456789abcdef"; 
*p++ = digits [m&0xf] ; 

} 


其 中 ，digits 是 编译 生成 的 名 称 。 
C 库 函数 包含 一 组 处 理 以 空 字 符 结束 的 字符 串 的 函数。 这些 库 函数 在 标准 头 文件 string.h 
中 定义 ,它们 复制 、 搜 索 、 扫 描 、 比 较 和 传送 字符 申 。strcat 是 其 中 的 一 个 典型 函数 ; 
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char *strcat(char *dst, const char *src) 
该 函数 将 src 添 加 到 dst 的 尾部 ， 即 ， 它 从 src 中 复制 包括 空 字 符 在 内 的 所 有 字符 ， 并 连续 添加 
到 dst 的 末尾 ， 并 且 覆 盖 了 dst 末 尾 的 空 字 符 。 

strcat 也 显示 了 在 头 文件 string.h 中 定义 的 函数 的 两 个 缺点 。 第 一 ， 客 户 调用 程序 必须 给 
结果 分 配 空 间 ， 比 如 strcat 中 的 dst; 第 二 ,也 是 最 重要 的 缺点 ， 所 有 的 函数 都 不 安全 一 一 它 
们 都 不 能 检查 结果 字符 串 是 否 足 够 大 。 如 果 dst 不 足够 大 ， 不 能 容纳 来 自 src 中 的 多 余 的 字符 ， 
则 strcat 将 在 未 分 配 的 存储 区 或 者 其 他 存储 区 写 人 乱码 。 一 些 函 数 ， 比 如 strncat ， 带 有 一 些 额 
外 的 参数 来 限制 复制 到 结果 中 的 字符 数 ， 这 有 一 定好 处 ,但 是 仍然 会 出 现 分 配 错误 。 

本 章 描 述 的 Str 接 口中 的 函数 避免 了 这 些 缺 点 ， 并 为 处 理 字符 申 参 数 的 子 字 符 串 提供 了 一 
个 方便 的 方法 。 这 些 函 数 比 在 string.h 中 定义 的 函数 更 安全 ， 因 为 大 部 分 Str 函数 都 为 它们 的 
结果 分 配 空 间 ， 这 使 得 分 配 更 加 安全 。 

通常 是 需要 这 些 分 配 的 ， 因 为 string.h 函 数 的 客户 调用 程序 在 它们 的 大 小 依赖 于 计算 输出 
时 ， 必 须 分 配 结果 。 就 string.h 函 数 而 言 ，Str 函 数 的 客户 调用 程序 仍然 必须 释放 结果 。 下 一 
章 将 要 描述 的 Text 接 口 导 出 另外 一 组 处 理 字符 串 的 函数 ， 它 们 能 避免 Str 函 数 的 一 些 分 配 。 


15.1 接口 


(str.h)s 
#ifndef STR INCLUDED 
#define STR INCLUDED 
#include «stdarg.h» 


(exported functions 244) 


#undef T 
#endif 


Str Be OP eS HY A FRAR HL PAB EE (以 空 字符 结束 ) 和 位 置 
(position ) 给 定 。 类 似 于 Ring 的 位 置 ， 字 符 串 位 置 识别 字符 的 具体 位 置 ， 包 括 最 后 一 个 非 空 
字符 的 位 千 。 正 的 位 置 从 字符 串 的 左 端 定位 ， 位 置 1 是 左 端 第 一 个 字符 ; 非 正 的 位 置 从 字符 串 
的 右 端 定位 ， 位 置 0 是 右 端 第 一 个 字符 。 例 如 ， 下 面 的 图 表 显 示 了 字符 串 Interface 中 的 位 置 。 
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“Interface”, Ws [-4:0] 就 是 子 字 符 申 “face”。 壮丁 以 以 任何 顺序 给 s [0:-4] 也 
是 指 子 字 符 串 “face”。 子 字符 品 可 以 为 空 ，s [3:3] 和 s[ 3:-7] 都 指 的 号 "Interface" h “n” 
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和 “t” 之 间 的 子 宁 符 申 ， 即 空子 字符 申 。 对 任意 有 效 的 1，s [ii+1] 总 是 指 i 右 面 的 那个 字符 ， 
除非 i 已 经 在 最 右边 。 
字符 索引 是 男 外 一 种 定义 子 字 符 串 的 方法 ， 并 且 可 能 更 简单 一 些 ， 但 是 这 样 也 有 缺点 。 
当 用 字符 索引 定义 字符 串 时 ， 顺 序 是 很 重要 的 。 例 如 ， 字 符 串 “Interface” 中 的 索引 是 从 0 
到 9。 如 果子 字符 串 出 两 个 索引 定义 ， 其 中 该 子 字符 串 从 第 一 个 索引 之 后 开始 到 第 二 个 索引 
之 前 结束 ， 则 s [1.6] 定义 了 子 字符 串 “terf"。 但 是 这 种 方法 必须 允许 空 字符 串 索 引 ， 以 便 
用 s [4.9] 表示 子 字符 中 face ， 并 且 它 不 能 定义 最 前 面 的 空 字符 串 。 改 变 这 种 方法 使 得 所 定义 
的 子 字 符 申 在 第 二 个 索引 后 的 一 个 字符 结束 ， 这 样 就 不 会 定义 空 的 字符 串 了 。 另 外 一 种 方法 
是 使 用 负 索 引 ， 但 是 它 比 使 用 位 置 的 方法 更 麻烦 。 
使 用 位 置 的 方法 比 使 用 字符 索引 的 方法 寻 ， 央 为 它们 避免 了 界限 模糊 的 情况 。 而 且 非 正 
的 位 置 可 以 用 来 访问 一 个 字符 串 的 尾部 ， 而 无 需 知道 它 的 长 度 。 
St 输出 一 些 函 数 ， 这 些 函 数 创 建 并 返回 以 空 字符 结束 的 字符 串 ， 同 时 也 返回 字符 串 信息 
和 人 位置。 创建 字符 串 的 函数 是 ; 
(exported functions 244)= 
extern char *Str sub(const char *s, int i, int j); 
extern char *Str dup(const char *s, int i, int j, int n); 


extern char *Str_cat(const char *s1, int il, int jl, 
const char *s2, int i2, int j2); 











extern char *Str_catv (const char *s, ...); 
extern char *Str_reverse(const char *s, int 7, int j); 
extern char *Str_map (const char *s, int i, int j, 


const char *from, const char *to); 
所 有 这 些 函 数 都 为 它们 的 结果 分 配 空 间 ， 也 都 能 引发 异常 Mem_Failed 。 将 一 个 空 字符 
串 指针 传递 给 该 接口 中 的 任意 函数 都 将 会 产生 可 检查 的 运行 期 错误 ， 除了 下 面 描述 的 
Str_catv 和 Str_map 两 种 情况 : 
Str_sub 返 回 s 的 子 字符 申 s [i:j] 。 例 如 下 列 代码 都 返回 “face”。 


Str sub("Interface", 6, 10) 

Str sub("Interface", 6, 0) 

Str sub("Interface", -4, 10) 

Str sub("Interface", -4, 0) 
这 些 位 置 可 以 按 任意 顺序 给 定 。 将 一 个 用 i 和 j 无 法 确定 的 s 中 的 子 字符 申 传 递 给 该 接口 的 任意 
函数 都 会 产生 可 检查 的 运行 期 错误 . 

Str_dup 返 回 s [ij] 的 n 个 备份 字符 串 。n 为 负 则 会 产生 可 检查 的 运行 期 错误 。Str_dup 通 常 
用 来 复制 字符 串 ， 例 如 ，Str_dup ( “Interface”, 1, 0, 1) 将 返 回 字符 串 Interface 的 一 个 备 
份 。 注 意 使 用 位 置 1 和 0 来 定义 Interface 的 方法 。 

Str_cat 返 回 s1 [11:1] 和 s2 [i2:j2] 相连 接 后 的 结 HR ， 即 将 字符 串 s2 [i2:j2] 中 的 字符 放 到 
FA Psl [11] 的 字符 后 面 。Str_caty 与 此 类 似 ， 它 所 带 的 参数 每 三 个 一 组 ， 每 组 代表 一 个 
字符 串 和 人 它 的 两 个 位 置 ， 然后 返回 这 些 子 字 符 串 连接 后 的 结 直 果 。 参 数列 表 由 空 指 针 作 为 结束 
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符 。 例 如 ， 
Str catv("Interface", -4, 0, " plant", 1, 0, NULL) 
将 返回 字符 串 face plant, 
Str_reverse 将 返回 一 个 包含 s [i:j] 中 的 字符 的 字符 串 ， 只 不 过 与 在 s 中 显示 的 顺序 相反 。 
Str_map 将 返回 一 个 包含 s [i] 中 的 字符 的 字符 串 ， 只 不 过 是 按照 由 from 和 to 给 定 的 值 的 
对 应 关系 来 显示 的 。s [1:3] 中 显示 在 from 位 置 的 每 个 字符 都 映射 到 to 位 置 的 相应 字符 中 。 没 
有 在 from 显 示 的 字符 则 映射 它们 本 身 。 例 如 ， 


Str. map(s, 1, 0, "ABCDEFGHIJKLMNOPQRSTUVWXYZ" , 
"abcdefghi jkImnopqrstuvwxyz") 


将 返回 8 的 一 个 备份 ， 只 不 过 大 写 的 字母 被 相应 的 小 写字 母 代替 。 
如 采 from 和 to 都 为 空 ， 将 使 用 最 近 一 次 调用 Str_map 所 定义 的 映射 。 如 果 s 为 空 ， 则 忽略 i 
和 j ， 此 时 from 和 to 只 用 于 建立 缺 省 的 映射 ， 同 时 Str_map 将 返回 空 值 。 
以 下 情况 将 会 产生 可 检查 的 运行 期 错误 : from 和 to 中 只 有 一 个 指针 为 空 ，from 和 to 非 空 
但 是 定义 的 字符 串 长 度 不 等 ，s 、from 和 to 均 为 空 的 情况 和 在 第 一 次 调用 Str_map 时 from 和 to 
Str 接 口中 其 他 函数 将 返回 字符 申 信 息 或 者 在 字符 串 中 的 位 置 ， 它 们 都 不 分 配 空间 。 
(exported functions 244)+= 
extern int Str pos(const char *s, int i); 
extern int Str len(const char *s, int i, int j); 


extern int Str cmp(const char *s1, int il, int jl, 
const char *s2, int i2, int j2); 


Str_pos 返 回 对 应 于 s [ii] 的 正 的 位 置 。 正 的 位 置 通过 减 一 总 能 转换 成 索引 ， 央 此 ， 在 需 
要 索引 时 ， 常 常 使 用 Str_pos。 例 如 ， 如 果 s 指 向 字符 串 “Interface”， 则 

printf("%s\n", &s[Str pos(s, -4)-1]) 

将 输出 “face”。 

Str_len 返 回 s [i:j] 中 的 字符 数 。 

Str_cmp 返 回 小 于 零 、 等 于 零 和 大 于 零 的 值 ， 分 别 对 应 于 sl1 [il:j1] 小 于 、 等 于 和 大 于 
s2 [i2:j2] 的 情况 。 

下 面 的 函数 为 字符 和 其 他 字符 串 搜索 字符 申 。 如 果 搜 索 成 功 ， 则 这 些 函 数 将 返回 反映 搜 
索 结 果 的 正 的 位 置 ， 如 果 搜 索 失 败 ， 它 们 将 返回 零 。 函 数 名 中 带 有 _r 的 函数 将 从 它们 的 参数 
字符 串 的 最 右 端 开始 搜索 ， 其 他 的 函数 从 左 端 开始 搜索 。 

(exported functions 244)+= 

extern int Str chr (const char *s, int i, int j, int c); 
extern int Str rchr (const char *s, int i, int j, int c); 
extern int Str upto (const char *s, int i, int j, 


const char *set); 
extern int Str rupto(const char *s, int i, int j, 
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const char *set); 
extern int Str find (const char *s, int i, int j, 
const char *str); 


extern int Str rfind(const char *s, int i, int j, 
const char *str); 


如 果 c 出 现在 s [i] 中 ， 则 Str_chr 和 Str_rchr 分 别 返回 c 从 左 至 右 第 一 次 或 从 右 至 左 第 一 次 
出 现时 在 s 中 的 位 置 的 前 一 个 位 置 ; 如 果 c 不 出 现在 s [ij] 中 ， 则 返回 零 。 

如 果 set 中 的 任意 字符 c 出 现在 s fi:j] 中 ， 则 Str_upto 和 Str_rupto 分 别 返回 c 从 左 至 右 第 一 ? 
或 从 右 至 左 第 一 次 出 现时 在 s 中 的 位 置 的 前 一 个 位 置 ; 如 果 c 不 出 现在 s [i:j] 中 ， 则 返回 零 。 
在 将 一 个 空 set 传 向 这 两 个 函数 时 会 产生 可 检查 的 运行 期 错误 。 

如 果 str 出 现在 s [Ej] 中 ， 则 Str_find 和 Str_rfind 分 别 返回 str 从 左 至 右 第 一 次 或 从 右 至 左 第 
一 次 出 现时 在 s 中 的 位 置 的 前 一 个 位 置 ; 如 果 str 不 在 $ [5j] 中 ， 则 返回 零 。 在 将 一 个 空 str 传 向 
这 两 个 函数 时 会 产生 可 检查 的 运行 期 错误 。 

下 述 函 数 


(exported functions 244)+= 

extern int Str_any (const char *s, int i, 
const char *set); 

extern int Str many (const char *s, int i, int j, 
const char *set); 

extern int Str_rmany (const char *s, int i, int j, 
const char *set); 

extern int Str match (const char *s, int i, int j, 
const char *str); 

extern int Str rmatch(const char *s, int i, int j, 
const char *str); 


均 是 处 理 字符 申 的 ， PME 

如 果 字 符 s [:ie1] 在 set 中 ， 则 Str_any 返 回 该 字符 在 s 中 的 位 置 的 后 面相 邻 的 位 置 ， 否 则 
返回 零 。 

如 果 s [i:j] 是 以 set 中 的 一 个 或 多 个 连续 字符 序列 开始 ， 则 Str_many 返 回 该 字符 序列 的 最 后 
一 个 字符 在 s 中 的 位 置 后 面相 邻 的 位 置 ; 否则 ， 返 回 零 。 如 果 s [i:j] 是 以 set 中 的 一 个 或 多 个 连 
续 字 符 序列 结束 ， 则 Str_ rmany 返 回 该 字符 序列 第 一 个 字符 在 s 中 的 位 置 之 前 相 邻 的 位 置 ; 否 

则 ， 返 回 零 。 将 空 的 set 传 递 给 Str_any 、Str_many 和 Str_ MN 

如 果 s [ij] 是 以 str 开 头 的 ， 则 Str_match 返 回 str 在 s 中 的 位 署 后 面 的 位 置 ; 否则， 返回 零 。 
如 果 s [ij] 是 以 str 结 束 的 ， 则 Str_rmatch 返 回 str 在 s 中 的 位 置 前 面 的 位 置 ; 否则 ， 返 回 零 。 将 
空 的 str 传 递 给 Str_match 或 Str_rmatch 都 将 导致 可 验 查 的 运行 期 错误 。 

Str_rchr 、Str_rupto 和 Str_rfind 从 它们 的 参数 列表 的 最 右 端 开始 搜索 ， 但 是 返回 它们 所 搜 
索 到 的 字符 或 者 字符 申 的 左面 的 位 置 。 例 如 ， 下 列 代码 


Str find ("The rain in Spain", 1, 0, "rain") 
Str rfind("The rain in Spain", 1, 0, "rain") 
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ARE E5, Marant è 1h B—-T+ BRP A BK. FI R 
Str find ("The rain in Spain", 1, O, 
Str rfind("The rain in Spain", 1, 0, "in") 
则 分 别 返回 7 和 16 ， 因 为 in 出 现 了 三 次 。 
Str many 和 Str_match 向 右 操作 ， 并 返回 它们 越过 的 字符 后 面 的 位 置 。Str_rmany 和 
Str_rmatch 则 向 左 操作 ， 它 们 返回 字符 前 面 的 位 置 。 例 如 ， 
Str sub(name, 1, Str. rmany(name, 1, 0, " \t")) 
返回 name 的 一 个 备份 ， 但 是 即使 它 后 面 有 空格 和 制 表 符 ， 也 不 会 返回 这 些 字符 ， 函 数 
basename 显示 了 这 些 方法 的 另外 一 种 典型 的 应 用 。basename 接 受 UNIX 风 格 的 路 径 名 并 只 返 
回 文 件 名 而 不 返回 它 前 面 的 目录 或 者 后 缀 ,下 面 的 例子 说 明了 这 一 点 - 


basename("/usr/jenny/main.c", 1, 0, ".c") main 
basename("../src/main.c", 1,0, "") main.c 
basename("main.c", 1,0, "c") main. 
basename("main.c", 1, 0, ".obj") main.c 
basename("examples/wfmain.c", 1, O, "main.c") wf 


basename 使 用 Str_rchr 寻 找 最 右 端 的 斜 线 ， 用 Str_rmatch 来 分 开 后 缀 。 


char *basename(char *path, int i, int j, char *suffix) { 
i = Str rchr(path, i, j, '/'); 
j = Str. rmatch(path, i + 1, 0, suffix); 
return Str dup(path, i + 1, j, 1); 

} 


由 Str_rchr 返 回 并 赋 给 的 值 ， 是 最 后 一 个 斜 线 前 面 的 位 兽 ， 如 果 有 则 为 1， 没 有 则 为 0。 无 论 
是 哪 种 情况 ， 文 件 名 都 从 位 置 i+1 开 始 。Str_match 检 查 文 件 名 并 返回 后 缀 之 前 或 者 文件 名 之 
后 的 位 置 。 还 有 ， 无 论 是 哪 种 情况 ,j 都 是 文件 名 之 后 的 位 兽 。Str_dup 返 回 i+1 和 j 之 间 的 path 
中 的 子 字符 串 。 
函数 
(exported functions 2444 
extern void Str. fmt(int code, va list *app, 
int put(Cint c, void *c1), void *cl, 
unsigned char flags[], int width, int precision); 
是 一 个 转换 函数 ， 它 能 和 Fmt 接 口中 的 格式 化 函数 一 起 使 用 来 格式 化 子 字符 串 。 它 带 有 三 个 
参数 : 一 个 字符 串 指 针 和 两 个 位 置 ， 并 按照 Fmt 的 %s 定 义 的 风格 来 格式 化 子 字 符 申 。 如 果 字 
符 串 指针 、app 或 者 flag 为 空 ， 则 会 出 现 可 检查 的 错误 。 
例如 ， 如 果 由 下 列 函 数 将 Str_fmt 和 格式 化 代码 $ 关 联 在 一 起 ， 
Fmt register('S', Str. fmt) 





则 


Fmt_print("%10S\n", "Interface", -4, 0) 
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将 打印 “ face”, Hp ^" ”表示 空格 。 


15.2 例子 : 打印 标识 符 


在 输入 中 打印 关键 字 和 标识 符 的 程序 说 明 了 TStr_fmt 的 用 处 和 为 字符 或 者 其 他 字符 串 检 查 
字符 串 的 函数 的 用 处 。 249 


(jds.c= 
#include <stdlib.h> 
#include <stdio.h> 
#include "fmt.h" 
#include "str.h" 





int main(int argc, char *argv[]) { 
char line[512]; 
static char set[] = "0123456789 " 
"abcdefghi jkImnopqrstuvwxyz" 
"ABCDEFGHIJKLMNOPQRSTUVWXYZ" ; 


Fmt register('S', Str fmt); 
while (fgets(line, sizeof line, stdin) != NULL) { 
int i = 1, j; 
while (Ci = Str_upto(line, i, 0, &set[10])) > 0){ 
j = Str_many(line, i, 0, set); 
Fmt_printc"%S\n", line, i, j); 
i=j; 
} 
} 
return EXIT_SUCCESS; 
} 


当 内 部 的 while 循 环 为 下 一 个 标识 符 扫描 line [:0] 时 ， 从 i=1 开 始 。Str_upto 返 回 line 中 下 
一 个 下 划 线 或 者 line [i:0] 中 的 字母 的 位 置 ， 并 且 将 位 置 值 赋 给 ti。Str_many 返 回 数字 、 下 划 
线 和 字母 后 面 的 位 置 。 这 样 ，i 和 和 j 都 标识 下 一 个 识别 符 ，Fmt_print 打 印 该 识别 符 ， 同 时 也 打 
印 Str_fmt ， 它 与 格式 化 代码 S 相 关联 。 把 j 赋 给 ; ， 再 次 运行 hile 循 环 来 寻找 下 一 个 标识 符 。 
当 line 包 含 对 main 的 声明 时 ， 传 递 给 Fmt_print 的 ti 和 j 的 值 如 下 图 所 示 。 





j 4 9 13 18 24 30 
int main(int argc, char *argv []) { 
i 1 $$ No ia bo te 


在 该 程序 中 没有 进行 分 配 。 在 这 些 应 用 中 使 用 位 置 时 ， 常 常 可 以 不 分 配 。 
15.3 实现 


(Str.C)= 
#include <string.h> 
#include «limits.h» 
#include "assert.h" 
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#include "fmt.h" 
#include “str.h" 
finclude "mem.h" 


(macros 251) 
(functions 252) 


实现 必须 处 理 位 置 和 索引 之 间 的 转换 ， 因 为 函数 要 使 用 索引 访问 具体 的 字符 。 正 的 位 置 
i 右面 的 字符 的 索引 是 i-1， 负 的 位 置 右 面 的 字符 的 案 引 是 itrlen ， 其 中 len 是 字符 串 中 的 字符 


总 数 。 宏 


(macros 251)« 


#define idx(i, Ten) (Ci) <= 0 ? (1) + (Jem : 


G) - 1) 


将 这 些 定义 封装 在 一 起 。 假 如 给 定 OK Elen EB PA GEM, Mids (i, len) 就 是 i 右 


面 的 字符 的 索引 。 


Str 函 数 将 它们 的 位 置 参数 转换 成 索引 ， 然 后 再 使 用 这 些 索引 访问 字符 串 。 宏 convert 封 


装 了 转换 的 步骤 : 


(macros 251) 


#define convert(s, i, j) do ( int len; \ 
assert(s); len = strlen(s); \ 


7 = idx(T, len); 了 
if (i> D (int t 
assert(7 >= 0 && j 


= idx(J, len); \ 
=i; i= J; j=t; }\ 
<= len); } while (0) 


位 置 1 和 被 转换 成 0 到 字符 串 s 的 长 度 之 间 的 索引 ， 如 有 必要 ， 它 们 可 以 互相 交换 ， 央 此 i 不 可 
能 超过 j 。 代码 块 结束 处 的 断言 利用 可 检查 的 运行 期 错误 执行 来 保证 1: 和 j 所 标识 的 s 中 的 位 置 
是 有 效 的 ， 一 旦 转换 完成 , j-i 就 是 被 说 明 的 子 字符 串 的 长 度 。 

Str_sub 显 示 了 convert 的 典型 应 用 。 


(functions 252) 


char *Str sub(const char *s, int i, int j) { 


char *str, *p; 


convert(s, i, j); 
p = str = 
while (i « j) 

*p++ = s[ie]; 
*p = UNO; 
return str; 


了 


ALLOCC(j - i + 1); 


子 字符 串 的 末尾 位 置 被 转换 成 该 子 字符 串 后 面 的 字符 的 索引 ， 这 个 字符 有 可 能 是 空 的 结束 符 。 


因此 j-i 就 是 得 到 的 子 字 符 叫 的 长 度 ， 包 括 袍 字符 在 内 ， 基 需 要 j-i+1 个 字 节 的 存储 区 。 





Str_sub 和 一 些 其 他 的 Str 函 数 能 用 标准 C 库 函数 里 的 字 符 申 程序 进行 操作 ， 例 如 strncpy， 


请 参见 练习 15.2 。 
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15.3.1 字符 串 操作 


Str_dup 为 s [i:j] 的 n 个 备份 和 空 的 结束 符 分 配 空间 ， 然 后 将 8s [uj] 复制 na 遍 ， 这 里 假定 s 


[ij] 非 空 。 


(functions 252)+= 
char *Str dup(const char *s, int i, int j, int n) { 
int k; 
char *str, *p; 


assert(n »- 0); 
convert(s, i, j); 
p = Str = ALLOC(n*(j - i) + 15; 
if G-i> 0) 
while (n-- > 0) 
for (k = i; k < j; k++) 
*p++ = S[k]; 
*p = '\0'; 
return str; 


} 
Str_reverse 类 似 于 Str_sub， 只 是 它 以 相反 的 顺序 复制 字符 : 


(functions 252)+= 
char *Str reverse(const char *s, int i, int j) { 
char *str, *p; 


convert(s, i, j); 
p = str = ALLOCG - i + 1); 
while (j > i) 


*p++ = s[--j]; 
*p = 'NO'; 
return str; 


} 
Str_cat 只 能 调用 Str_catv ， 但 是 已 足够 保证 它 自 己 的 特定 实现 ; 


(functions 252)+= 
char *Str cat(const char *s1, int il, int jl, 
const char *s2, int i2, int j2) { 
char *str, *p; 


convert(sl, il, j1); 
convert(s2, i2, j2); 
p = str = ALLOC(j1 - i1 + j2 - i2 + 15; 
while (il < j1) 
*p++ = s1[il++]; 
while (i2 < j2) 
*p++ = s2[i2++]; 
*p = '\0'; 
return str; 
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Str_catv 有 一 点 复杂 ， 因 为 它 必须 两 次 遍历 它 的 参数 的 变量 个 数 : 


(functions 252)+= 
char *Str catv(const char *s, ...) { 
char *str, *p; 
const char *save = s; 
int i, j, len = 0; 
va. list ap; 


va start(ap, s); 
(len c the length of the result 254) 


va end(ap); 
p = str = ALLOC(len + 1); 
S = save; 


va_start(ap, s); 

(copy each s[1:j] top, increment p 255) 
va. end(ap) ; 

*p = '\0'; 

return str; 


} 


第 一 次 遍历 计算 结果 的 长 度 ， 即 计算 参数 子 字符 串 的 长 度 的 总 和 。 当 为 结果 分 配 完 空间 
后 ， 第 二 次 遍历 将 每 个 分 组 给 出 的 子 字符 串 添 加 结果 中 。 第 一 次 遍历 是 通过 将 位 置 转换 为 索 
引 的 方法 计算 每 个 子 字符 串 的 长 度 的 ， 如 此 ， 就 能 得 到 长 度 


(len e the length of the result 254)= 
while (s) { 
i = va arg(ap, int); 
j = va arg(ap, int); 
convert(s, i, j); 
len += j - i; 
S = va arg(ap, const char *); 


} 
第 二 个 遍历 几乎 与 此 一 致 : 惟一 的 不 同 点 是 len 的 任务 被 复制 子 字符 串 的 循环 代替 : 


(copy each s[i:j] to p, increment p 255)» 
while (s) { 
i = va arg(ap, int); 
j » va.arg(ap, int); 
convert(s, i, j); 
while (i « j) 
*pt+ = s[i++]; 
S = va arg(ap, const char *); 


) 
Str_map 建 立 了 一 个 数组 map， 其 中 map [c] 是 c 的 映射 ， 如 同 由 from Fito 3 X KIRE i8 
过 将 s [ij] 中 的 字符 当 作 map 的 索引 ， 可 以 把 s [Ej | 映射 并 复制 到 一 个 新 的 字符 串 中 。 


(map s[i:j] into a new string 255)= 
char *str, *p; 
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convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (i < j) 
*p++ = map[(unsigned char)s[i++]]; 
*p = 'NO'; 
强制 类 型 转换 符 (cast ) 保证 值 超过 127 的 字符 不 会 转换 成 负 的 索引 。 
map 通 过 初始 化 来 建立 ， 以 使 map [cj 等 于 c， 即 每 个 字符 都 与 它 本 身 对 应 。 然 后 from 中 


的 字符 再 索引 map 中 的 元 素 ， 其 中 map 中 的 字符 就 是 相应 的 to 中 的 元 素 的 值 ; 


(rebuild map 255)= 
unsigned c; 
for (c = 0; c < sizeof map; c++) 
map[c] = c; 
while (*from && *to) 
map[Cunsigned char)*from++] = *to++; 
assert(*from == 0 && *to == 0); 


上 述 声明 实现 了 对 from 和 to 的 长 度 是 否 相 等 的 运行 期 错误 检查 . 
当 from 和 to 都 非 空 时 ，Str_map 使 用 这 段 代 码 块 ， 当 s 非 空 时 ， 它 使 用 (map s[i:j] into a 
new string 255) HAY AAS. 255 


(functions 252)+= 
char *Str_map(const char *s, int i, int j, 
const char *from, const char *to) { 
static char map[256] = { 0 }; 


if (from & to) { 
(rebuild map 255) 

} else { 
assert(from == NULL && to == NULL && s); 
assert(map['a']); 


} 

if (s) { 
(map s[i:j] into a new string 255) 
return str; 

} else 


return NULL; 
i 


最 初 ，map 中 所 有 的 元 素 都 为 零 。 没 有 办 法 在 to 中 定义 一 个 空 字符 ,因此 对 map [a'] dk 
零 的 声明 将 检查 第 一 次 询 用 Str_map 时 from 和 to 是 否 有 空 指针 ， SRI eR. 

索引 为 i 的 字符 左边 的 正 位 置 是 i+1 。 Str_pos 用 这 个 特点 来 返回 与 s 中 任意 的 位 置 1 相对 应 
的 正 的 位 置 。 它 将 i 转 化 成 索引 、 对 它 进 行 验证 并 将 它 转化 回 正 的 位 置 ， 然 后 返回 。 

(functions 252)+= 


int Str. pos(const char *s, int i) { 
int Ten; 


assert(s); 
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len = strlen(s); 

i = idx(i, len); 

assert(i »- 0 && i «« len); 
return i + 1; 


) 
Str_len 通 过 将 i 利 转化 成 索引 并 返回 它们 之 间 的 字符 数 的 方法 来 返回 子 字 符 串 s [i:j] 的 长 度 : 


(functions 252)+= 
int Str len(const char *s, int i, int j) { 
convert(s, i, j); 
return j - i; 


} 
Str_cmp 的 实现 很 简单 直接 ， 但 是 又 很 元 长 ， 央 为 它 含 有 一 些 细节 定义 : 





(functions 252)+= 
int Str cmp(const char *s1, int il, int jl, 
const char *s2, int i2, int j2) { 
(string compare 257) 


} 
Str_cmp 先 将 让 和 j1 转 化 成 s1 中 的 索引 ， 将 这 和 j2 转 化 成 s2 中 的 索引 : 


(string compare 257)= 
convert(sl, il, j1); 
convert(s2, i2, j2); 


然后 ， 再 调整 sl 和 s2 以 分 别 指向 它们 的 第 一 个 字符 。 


(string compare 257)+= 
sl += il; 
s2 += 12; 


s1[i1:;j1] 和 s2[i2:j2] 中 较 短 的 那个 字符 串 决定 了 要 比较 的 字符 的 数 自 ， 这 是 通过 调用 strncemp 
来 完成 的 。 
(string compare 257)+= 
if G1 - il < j2 - i2) { 
int cond = strncmp(sl, s2, jl - il); 
return cond == 0 ? -1 : cond; 
) else if (jl - il > j2 - i2) { 
int cond = strncmp(sl, s2, j2 - i2); 
return cond == 0 ? +1 : cond; 
} else 
return strncmp(s1, s2, jl - il); 
如 果 s1[i1:j1] 比 s2[i2:j2] 短 并 且 memcmp 返 回 值 为 零 ， 则 s1[i1:j1] 是 s2[i2:j2] 的 一 个 前 级 ， 因 
此 s1[i1:j1] 比 s2[i2:j2] 小 。 第 二 个 if 语 句 处 理 相 反 的 情况 ，else 语 句 则 在 sl 和 s2 的 参数 的 长 度 
相等 的 时 候 使 用 。 
标准 规定 strncemp( 和 memcmp ) 必须 将 8S1 和 s2 中 的 字符 当 作 无 符号 型 字符 ， 这 样 有 助 于 
在 s1 或 2 中 的 字符 值 大 于 127 时 得 到 定义 良好 的 结果 。 例如，strncemp ( 5344", “\127”, 1) 
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必须 返回 一 个 正 值 ， 但 是 strnemp 的 一 些 实现 没有 正确 地 比较 “无 格式 ”字符 ,其 中 这 些 字 
符 可 能 是 无 符号 的 ， 也 可 能 是 有 符号 的 。 对 于 这 些 实现 ，strncmp ( 3447, 7127", 1) 可 
以 返回 一 个 负 值 。memcmp 的 一 些 实现 也 可 能 产生 同样 的 错误 。 


15.3.2 分析 字符 串 


其 余 的 函数 从 左 向 右 或 者 从 右 向 左 检查 字符 串 ， 搜 索 是 否 有 字符 或 者 其 他 字符 串 出 现 。 
如 果 搜 索 成 功 ， 则 它们 都 返回 一 个 正 的 位 置 值 ， 否 则 返回 零 。Str_chr 是 其 中 的 典型 


(functions 252)4x 
int Str chr(const char *s, int i, int j, int c) { 
convert(s, i, j); 
for (C; i<j; i++) 
if (s[i] == c) 
return i + 1; 
return 0; 


} 
Str_rchr 与 此 类 似 ， 只 是 它 从 s ij 的 最 右 端 开 始 搜索 : 


(functions 252)+= 
int Str rchr(const char *s, int i, int j, int c) ( 
convert(s, i, j); 
while (j > i) 
if (s{--j] == c) 
return j + 1; 
return 0; 


} 
如 果 c 出 现在 s pj] rb, Bux 两 个 函数 都 返回 与 c 左 相 邻 的 正 的 位 置 。 
Str_upto 和 Str_rupto 同 Str_chr 和 Str_rchr 类 似 ， 只 是 它们 寻找 一 个 集合 中 的 任意 字符 是 否 
在 s [ij] 中 出 现 : 


(functions 2524 
int Str upto(const char *s, int i, int j, 
const char *set) ( 
assert(set); 
convert(s, i, j); 
for (C; i< j; i++) 
if (strchr(set, s[i])) 
return i + 1; 
return 0; 


int Str rupto(const char *s, int i, int j, 
const char *set) { 
assert(set); 
convert(s, i, j); 
while (j > i) 
if Cstrchr(set, s[--j])) 
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return j * 1; 
return 0; 


} 
Str. findi£ RÆ ih Ms [ij] 中 的 字符 串 。 在 实现 Str_find 时 ,将 长 度 为 0 或 1 的 字符 串 当 
作 特 殊 情 况 来 处 理 。 


(functions 252)+= 
int Str find(const char *s, int i, int j, 
const char *str) { 
int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if Clen == 0) 
return i + 1; 
else if (len == 1) { 
for C; i< j; i++) 
if Cs[i] == *str) 
return i + 1; 
} else 
for ( ; i + len <= j; i++) 
if ((s(i...] = str[0..1en-1] 260)) 
return i + 1; 
return 0; 


} 


如 果 str 没 有 字符 ， 搜 索 总 能 成 功 。 如 果 str 只 有 一 个 字符 ，Str_find 等 价 于 Str_chr.。 通常 
情况 下 ，Str_find 在 s [ij] 中 搜索 str， 但 是 要 注意 不 能 接受 超过 该 子 字 符 串 末尾 但 符合 条 件 的 
搜索 结果 : 


(s[i...] = str[0..1en-1] 260)= 
(strncmp(&s[i], str, len) == 0) 


Str_rfind 也 有 相同 的 三 种 情况 ， 但 是 它 被 用 于 反 向 比较 字符 串 。 


(functions 252)+= 
int Str rfind(const char *s, int i, int j, 
const char *str) { 
int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if (len == 0) 

return j + 1; 
else if (len == 1) { 

while (j » i) 

if (s[--j] == *str) 
return j + 1; 
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) else 
for C; j- len >= i; j--) 
if (strnemp(&s[j-len], str, len) == 0) 
return j - len + 1; 
return 0; 


} 
调用 Str_rfind 时 也 必须 小 心 ， 它 不 能 接受 超过 该 子 字符 串 的 开头 但 符合 条 件 的 结果 。 
Str_any 和 与 它 一 组 的 函数 都 不 搜索 字符 或 者 字符 串 ， 而 只 是 扫描 这 些 字符 或 字符 串 并 检 
查 它们 是 否 出 现在 所 讨论 的 子 字 符 串 的 开始 或 末尾 。 如 果 s[i:it1] 是 集合 set 中 的 字符 ， 则 
Str_any 返 回 Str_pos(s,i)+1: 


(functions 252)+= 
int Str any(const char *s, int i, const char *set) { 
int len; 


assert(s); 

assert(set); 

len = strien(s); 

i = idx(i, len); 

assert(i >= 0 && i <= len); 

if (i < len && strchr(set, s[i])) 
return i + 2; 

return 0; 


} 


如 有 果 测 试 成 功 ， 则 i+1 加 一 转化 成 正 的 位 置 ， 这 就 是 为 什么 Str_any 返 回 i+2 的 原因 。 
Str_many 将 打 描 集合 set 中 的 一 个 或 多 个 出 现在 s [i] 开头 的 字符 : 


(functions 252)+= 
int Str many(const char *s, int i, int j, 
const char *set) { 
assert(set); 
convert(s, i, j); 
if Ci < j && strchr(set, s[i])) { 
do 
i++; 
while (i < j && strchr(set, s[i])); 
return i + 1; 
} 
return 0; 


} 
Str_rmany 将 从 右 至 左 扫 描 集合 set 中 的 一 个 或 多 个 出 现在 s[ij] 未 尾 的 字符 


(functions 252)+= 
int Str rmany(const char *s, int i, int j, 
const char *set) { 
assert(set); 
convert(s, i, j); 
if (j > i && strchr(set, s[j-1])) { 
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do 
--j; 

while (j >= i && strchr(set, s[j])); 
return j + 2; 

} 

return 0; 

} 


第 15 章 


当 do-while 循 环 结束 时 ，j 等 于 i-1 或 是 不 在 集合 set 中 的 字符 的 索引 。 对 于 第 一 种 情况 ， 


Set_rmany 必 须 返回 +1; 而 第 二 种 情况 ， 必 须 返 回 字 符 s j) 右面 的 位 置 。 在 这 两 种 情况 下 ， 
j+2 都 是 正确 的 。 


如 果 str 出 现在 s [ij] 的 开头 ， 则 Str_match 返 回 Str_pos(s,i)+strlen (str )。 同 Str_find 类 似 ,， 


长 度 为 0 或 1 的 字符 串 要 当 作 特殊 情况 处 理 : 


(functions 252)+= 
int Str match(const char *s, int i, int j, 


} 


const char *str) { 
int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if Clen == 0) 
return i + 1; 
else if (len == 1) ( 
if G < j & s[i] == *str) 
return i + 2; 
) else if (i + Ten <= j && (s[i...] = str[0..1en-1] 260)) 
return i + len + 1; 


return 0; 


一 般 情况 下 ， 不 考虑 超过 s [i:j] 末尾 的 匹配 字符 串 。 
Str rmatch 中 情况 与 此 类 似 ， 这 里 必须 避免 超过 s [ij] 开头 的 匹配 字符 





或 1 的 字符 串 要 当 作 特 殊 情况 处 理 。 


(functions 252)+= 
int Str rmatch(const char *s, int i, int j, 


const char *str) ( 
int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if (len == 0) 
return j +1; 
else if (len = 1) { 
if (j > i && s[j-1] == *str) 
return j; 
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} else if (j - Ten >= i 

&& strncmp(&s[j-len], str, len) == 0) 
return j - len + 1; 

return 0; 


15.3.3 转换 函数 


最 后 一 个 函数 是 Str_fmt ， 这 是 一 个 定义 在 Fmt 接 口中 的 转换 函数。 转换 函数 的 调用 序列 
在 第 14.1.2 节 有 所 描述 。flags 、width 和 precision 参 数 将 确定 字符 中 是 怎样 被 格式 化 的 。 
Str_fmt 最 重要 的 特征 就 是 它 带 有 三 个 参数 ， 这 三 个 参数 都 来 自 参 数列 表 的 变量 部 分 ， 其 
中 参数 列表 将 被 传递 给 其 中 一 个 Fmt 函 数 。 这 三 个 参数 定义 了 一 个 字符 趾 和 字符 串 中 的 两 个 
位 置 。 这 些 位 置 给 出 了 子 字 符 串 的 长 度 ， 并 且 同 flags 、width 和 precision 一 起 决定 该 子 字符 
串 是 怎样 被 发 送 的 。Str_fmt 使 用 Fmt_puts 来 说 明 这 些 值 并 发 送 字 符 串 : 
(functions 252)+= 
void Str_fmt(int code, va_list *app, 
int put(int c, void *c1), void *cl, 
unsigned char flags[], int width, int precision) { 
char *s; 
int i, j; 


assert(app && flags); 

S = va arg(*app, char *); 

i = va.arg(*app, int); 

j = va.arg(*app, int); 

convert(s, i, j); 

Fmt_puts(s + i, j - i, put, cl, flags, 
width, precision); 


} 


参考 书目 浅 析 


Plauger ( 1992 ) 曾经 对 在 string.h 中 定义 的 函数 给 予 了 简短 的 批评 ， 并 说 明了 如 何 去 实 
现 它们 。Roberts (1995 ) 描述 了 一 个 简单 的 字符 串 接口 ， 该 接口 与 Str 类 似 并 且 也 是 基于 
string.h 的 。 

Str 接 口 的 设计 逐 字 逐 名 地 通过 Icon 程 序 语 言 (Griswold and Griswold 1990 ) 的 字符 串 
处 理工 具 得 到 改进 。 使 用 位 置 而 非 索 引 并 且 使 用 非 正 的 位 置 来 定义 相对 于 Icon 产生 的 字符 串 
的 末尾 的 位 置 。 

Str 的 函数 被 Icon 中 的 同名 函数 所 模仿 。Icon 函 数 处 理 能 力 更 强 ， 因 为 它们 使 用 Icon 的 直 
达 目 标的 评价 机 制 。 例 如 ，Icon 的 find 函数 可 以 返回 一 个 字符 中 在 另 一 个 字符 串 中 所 有 出 现 
的 位 置 。Icon 也 有 字符 串 扫 描 功 能 ， 再 加 上 直达 目标 的 评价 机 制 ， 便 有 了 强大 的 模式 匹配 
能 力 。 
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Str_map 也 可 用 于 实现 多 种 类 型 的 字符 中 转化 。 例 如 ，s 是 一 个 含有 7 个 字符 的 字符 串 ， 
Str map("abcdefg", 1, 0, "gfedcba", s) 
将 返回 s 的 倒序 。Griswold (1980 ) 探讨 了 这 种 映射 的 使 用 。 


练习 


15.1 


15.2 


15.3 


扩展 ids.c， 使 得 它 能 识别 并 忽略 C 语 言 的 注释 、 字 符 中 文字 和 关键 字 。 泛 化 你 扩 
展 的 版 本 ， 使 它 能 接受 命令 行 参数 来 定义 其 他 将 要 被 忽略 的 识别 符 。 

Str 的 实现 能 使 用 标准 C 库 里 的 字符 中 和 内 存 函 数 ， 比 如 使 用 Strnecpy 和 memcpy， 
来 复制 字符 串 。 例 如 ，Str_sub 可 以 写成 如 下 形式 ， 

char *Str sub(const char *s, int i, int j) { 


char *str; 


convert(s, i, j); 

str = strncpy(ALLOC(j - i +1), s + i, j-i); 
str[j - i] = 'N0'; 

return str; 


} 

一 些 C 编 译 器 能 够 识别 对 string.h 中 的 函数 的 调用 ， 并且 产生 内 部 代码 ， 其 中 内 部 
代码 相对 于 C 循环 要 快 得 多 。 高 度 优化 的 汇编 语言 的 实现 通常 也 更 快 些 。 在 可 能 
的 地 方 使 用 String.h 中 的 函数 来 重新 实现 Str ， 并 在 一 台 专 门 的 机 器 上 用 专门 的 C 编 
译 器 度量 结果 ， 然 后 再 描述 每 个 函数 在 宁 符 申 参数 的 长 度 方面 的 改进 。 

没 计 并 实现 一 个 函数 ， 使 它 能 搜索 一 个 由 正则 表达 式 (regular expression ) ( 比如 
那些 AWK 支 持 的 和 在 Aho Kernighan 和 Weinberger ( 1988 ) 中 描述 的 表达 式 ) 定 
义 的 子 字符 串 。 该 函数 需要 返回 两 个 值 : 开始 匹配 的 位 置 和 子 字符 串 的 长 度 。 
Icon 有 一 个 字符 串 扫 描 扩 展 机 能 。 它 的 “?” ”操作 符 建立 了 一 个 支持 字符 申 和 该 
字符 串 中 的 位 置 的 扫描 环境 。 字 符 串 函数 ， 比 如 find ， 可 以 只 由 一 个 参数 来 激活 
当前 扫描 环境 中 操作 字符 串 和 位 置 。 学 习 Icon 的 字符 申 及 描 工 具 (在 Griswold 和 
Griswold (1990 ) 中 讲述 )， 并 设计 和 实现 一 个 提供 类 似 功能 的 接口 。 
String.h;zg X f A% 

char *strtok(char *s, const char *set); 

将 8 分 成 由 集合 set 中 的 字符 分 离 的 记号 。 通 过 反复 调用 strtok , 将 字符 串 s 分 成 多 个 
记号 。s 只 有 在 第 一 次 调用 strtok 时 才 被 传递 ， 并 且 strtok 搜 索 第 一 个 不 在 集合 set 中 
的 字符 并 用 一 个 空 字 符 覆 盖 ， 并 返回 s 。 随 后 的 调用 (它们 都 具有 strtok (NULL, 
set) WER), 将 使 strtok 在 它 离 开 的 位 置 继续 搜索 第 一 个 在 set 中 的 字符 ， 并 用 一 
个 空 字符 禾 盖 ， 然 后 返回 指向 所 代表 字符 申 头 部 的 指针 。 在 不 同 的 调用 中 ，set 可 
以 不 同 。 如 果 搜 索 失 败 ，strtok 返 回 空 值 。 用 提供 类 似 能 力 的 PRA KS Sur ETT , 
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但 是 不 要 修改 它 的 参数 。 你 可 以 改进 strtok 的 设计 吗 ? 
15.6 Str 函 数 总 是 为 它们 的 结果 分 配 空间 , 其 中 这 些 空 间 在 某 些 应 用 中 可 能 不 是 必须 的 。 
假定 接受 了 一 个 可 选 的 目标 ， 并 且 只 有 在 目标 是 空 指针 时 ， 才 分 配 空 间 。 例 如 ， 





char *Str dup(char *dst, int size, 
const char *s, int i, int j, int n); 


在 dst 非 空 时 将 结果 存储 在 dst[0..size-1] 并 返回 dst。 否 则 ， 它 将 为 结果 分 配 空间 ， 

就 像 当 前 版 本 做 的 那样 。 设 计 一 个 基于 这 种 方法 的 接口 。 说 清楚 size 太 小 时 会 发 

生 什么 事情 。 将 你 的 设计 和 Str 接 口 比较 ， 哪 一 个 更 简单 ? 哪 一 个 更 不 容易 出 错 ? 

15.7 ”下 面 是 男 外 一 个 避免 在 Str 函 数 中 分 配 空间 的 建议 。 假 定 函数 

void Str result(char *dst, int size); 266 
将 dst 所 谓 的 结果 字符 串 传 递 给 下 一 次 Str ROBORE FH, Rn RES IRSE RIES ，Str 函 

数 将 它们 的 结果 存储 在 dst [0..size-1] 中 并 清除 结果 字符 串 指针 。 如 果 结 果 字 符 串 
为 空 ， 则 它们 与 通常 一 样 ， 为 结果 分 配 空 间 。 对 此 建议 从 优 劣 两 方面 进行 讨论 。 267 
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上 一 章 讲 述 的 Str 接 口 导出 的 函数 增加 了 C 中 处 理 字 符 串 的 能 力 。 按 照 惯 例 ， 字 符 串 就 是 
字符 数组 ， 其 中 数组 的 最 后 一 个 字符 为 空 。 虽 然 这 种 表示 方法 在 很 多 应 用 中 已 经 足够 了 ， 但 
是 它 有 两 个 严重 的 缺点 。 第 一 , 寻找 一 个 字符 串 的 长 度 需要 搜索 该 字符 串 的 结束 标志 空 字 符 ， 
因此 计算 字符 串 的 长 度 所 用 的 时 间 与 字符 串 的 长 度 成 比例 。 第 二 ，Str 接 口中 的 函数 和 标准 
库 中 的 一 些 函 数 都 假定 字符 串 可 以 改变 ， 因 此 无 论 是 它们 还 是 它们 的 调用 者 都 必须 为 字符 串 
分 配 空间 ， 而 在 那些 不 修改 字符 串 的 应 用 中 ， 不 必 为 字符 中 分 配 空间 。 

本 章 要 讲述 的 Text 接 口 所 使 用 的 表示 方法 稍 有 不 同 ， 从 而 克服 了 上 述 两 个 缺点 。 计 算 长 
度 的 时 间 是 固定 的 ， 因 为 它们 同 字 符 串 联系 在 一 起 ,而且 只 有 在 必要 的 时 候 才 会 分 配 空间 。 
由 Text 提 供 的 字符 申 是 固定 的 一 一 即 它 们 不 能 被 随意 改变 一 一 并 且 它 包含 一 个 内 部 的 空 字 
符 。Text 为 它 的 字符 串 表 示 方 法 和 C 形 式 的 字符 串 之 间 的 转换 提供 了 一些 函数 ， 而 这 些 转 换 
就 是 Text 性 能 改善 所 付出 的 代价 。 


16.1 #0 


Text 接 口 用 一 个 两 元 素 的 描述 符 来 表示 字符 申 ， 其 中 该 描述 符 给 出 了 字符 申 的 长 度 并 指 
向 它 的 第 一 个 字符 : 


(exported types 270)= 
typedef struct T { 
int len; 
const char *str; 
} T; 











(text.h)s 
#ifndef TEXT. INCLUDED 
#define TEXT. INCLUDED 
#include «stdarg.h» 


define T Text T 


(exported types 270) 
(exported data 274) 
(exported functions 271) 


flundef T 

fendif 
由 str 域 指向 的 字符 串 并 不 用 空 字符 作 结束 符 。 由 Text_T s 指 向 的 字符 岂可 以 包含 任意 字符 ， 
包括 空 字符 。Text 显 示 了 描述 符 的 表示 方法 ， 以 便 客户 调用 程序 可 以 直接 访问 域 。 如 果 给 定 
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—'Text Ts, Wslen ti SFA KE, H s.str [0..s.len-1] 来 访问 具体 的 字符 。 

客户 调用 程序 可 以 读 取 Text_T 的 域 以 及 它 所 指向 的 字符 串 中 的 字符 ， 但 是 它们 不 能 改变 
域 有 字符， 除非 通过 该 接口 中 的 函数 ,或 者 通过 它们 初始 化 的 Text_T 中 的 函数 ,或 者 由 
Text_box 返 回 的 函数 才能 改变 。 改 变 一 个 由 Text_T 描 述 的 字符 串 将 会 产生 可 检查 的 运行 期 错 
误 。 将 一 个 带 有 人 负 的 len 域 或 空 的 str 域 的 Text_T 传 递 给 该 接口 中 的 任何 函数 ,也 会 产生 可 检 
查 的 运行 期 错误 。 

Text 导 出 各 种 函数， 这 些 函数 通过 值 来 传递 并 返回 描述 符 ， 即 ， 函 数 传递 和 返回 的 是 描 
述 符 本 身 而 非 将 指针 传递 给 描述 符 。 其 后 果 是 所 有 的 Text 函数 都 不 分 配 据 述 符 。 

在 必要 的 时 候 ， 一 些 Text 函 数 的 确 为 字符 串 本 身分 配 空间 。 该 字符 串 空 间 完 全 由 Text 来 

270) 处理 ; 除了 下 面 描述 的 情况 外 ， 客 户 调用 程序 不 能 释放 字符 串 。 用 外 部 工具 释放 字符 串 ， 比 

如 调用 free 或 者 Mem_free， 会 产生 不 可 检查 的 运行 期 错误 。 

函数 

(exported functions 271)= 

extern T Text put(const char *str); 


extern char *Text get(char *str, int size, T s); 
extern T Text_box(const char *str, int len); 


HE TES ERE AIC TB AN FF BS E o Text. put AX 5E& £i OE Estr A IB HE gn 
空间 并 为 新 的 字符 串 返 回 一 个 描述 符 。Text_put 可 以 引发 异常 Mem_Failed。 如 果 str 为 空 ， 则 
会 产生 可 检查 的 运行 期 错误 。 

Text_get 将 s 所 描述 的 字符 串 复制 到 str (0..size-2] 中 ， 添 加 一 个 空 字符 并 返回 str。 如 果 
size 小 于 s.len+1 ， 则 会 产生 可 检查 的 运行 期 错误 。 如 果 str 为 裕 ， 则 Text_get 将 忽略 size 、 调 用 
Mem_alloc 来 分 配 s.len+1 个 字 节 的 空间 ， 然 后 将 s.str 复 制 到 里 面 并 返回 该 分 配 空 间 的 开头 指 
针 。 如 果 str 为 空 ，Text_get 可 以 引发 异常 Mem_Failed 。 

客户 调用 程序 调用 Text_box 来 为 常量 字符 串 或 者 它们 自己 分 配 的 字符 圳 建立 描述 符 。 它 
用 一 个 描述 符 将 str 和 len“ 装 箱 ” 并 返回 该 描述 符 。 例 如 ， 


static char editmsg[] = "Last edited by: " 


Text. T msg = Text. box (editmsg, sizeof (editmsg) - 1); 
4% “Last edited by:” 赋 给 msg。 注意 Text_box 的 第 二 个 参数 忽略 了 editmsg 末 尾 的 空 字符 。 
如 果 该 空 字符 没有 被 忽略 ， 则 它 将 被 认为 是 msg 所 描述 的 字符 串 的 一 部 分 。str 为 空 或 者 len 为 
负 都 将 会 产生 可 检查 的 运行 期 错误 。 

许多 Text 函 数 都 接受 字符 品位 置 ， 这 里 的 位 党 同 在 Str 中 定义 的 位 置 类 似 。 位 置 识 别 字符 
闻 的 具体 定位 ， 包 括 第 一 个 字符 之 前 的 位 置 和 最 后 一 个 字符 之 后 的 位 置 。 正 的 位 输 从 字符 串 

的 最 左 端 第 一 个 字符 开始 ， 而 非 目 的 位 置 从 字符 串 的 最 右 端 第 一 个 字符 开始 。 例如 ， 下 图 摘 

自 第 15 章 ， 它 显示 了 在 字符 串 “Interface” 中 的 位 置 。 
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函数 


(exported functions 271)+= 
extern T Text sub(T s, int i, int j); 


IRIEL PRE ts rr (Ti fjr] BU" St BO ETE, ， 其 中 位 置 i 和 j 顺 序 可 以 任意 。 例 如 ， 如 果 
Text. T s = Text put("Interface"); 

则 下 列表 达 式 
Text sub(s, 6，10) 
Text_sub(s, 0, -4) 


Text sub(s, 10, -4) 
Text sub(s, 6, 0) 


都 返回 子 字符 串 “face” 的 描述 符 。 

既然 客户 调用 程序 不 改变 字符 串 中 的 字符 ， 而 是 字符 串 也 不 需要 空 字符 作为 结束 符 ， 所 
以 Text_sub 值 返回 一 个 Text_T ， 其 中 str 域 指向 s 的 子 字符 串 的 第 一 个 字符 ，len 域 是 子 字符 品 
的 长 度 。s 和 返回 值 可 以 共享 一 个 具体 的 字符 串 中 的 字符 ， 并 且 Text_sub 不 分 配 空间 。 然 而 ， 
客户 调用 程序 不 能 依靠 s 和 共享 同一 个 字符 串 的 返回 值 ， 因 为 Text 可 能 将 空 的 字符 串 和 只 显 
示 字 符 的 字符 串 当 作 特 殊 情 况 来 处 理 。 大 部 分 由 Text 导 出 的 函数 都 同 Str 导 出 的 函数 类 似 ， 但 


是 它们 当中 有 很 多 不 接受 位 署 参 数 ， 因 为 Text_sub 能 以 最 小 的 代价 提供 相同 的 功能 。 272 
函数 


‘exported functions 271)+= 
extern int Text_pos(T s, int 1); 


返回 任意 位 置 i 在 s 中 相应 的 正 的 位 置 。 例 如 ， 如 果 s 等 于 “Interface”， 则 

Text_pos(s, -4) 
将 返回 6 。 

如 果 Text_pos 中 的 i 或 者 Text_sub 中 的 或] 定义 了 一 个 在 s 中 不 存在 的 位 置 ， 则 会 产生 可 检 
查 的 运行 期 错误 。 

函数 

(exported functions 271 )+= 

extern T Text cat (T s1, T s2); 


extern T Text dup (T s, int n); 
extern T Text, reverse(T s); 


ERE. Ep A Se FEB 。 PTA HE 函数 都 可 以 引发 异常 Mem_Failed 。Text_cat 返 回 字符 串 
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s1 和 s2 连 接 后 的 字符 中 的 描述 符 ， 如 果 s1 或 者 s2 为 空 字符 串 ， 将 返回 其 他 参数 。 而 且 ， 
Text_cat 只 有 在 必要 时 才 复 制 s1 和 s2。 

Text_dup 将 返回 hn 个 s 相 连接 后 的 字符 串 的 描述 符 ;如 果 n 为 负 ， 则 会 产生 可 检查 的 运行 期 
错误 。Text_reverse 将 以 相反 的 顺序 返回 字符 申 s 。 


(exported functions 271)+= 
extern T Text map(T s, const T *from, const T *to); 


将 如 下 根据 from 和 to 指向 的 字符 串 来 返回 s 的 映射 结果 。 对 s 中 每 个 出 现在 from 中 的 字符 ， 
中 相应 的 字符 就 出 现在 结果 字符 串 中 。 如 果 s 中 的 字符 没有 出 现在 from 中 ， 则 字符 本 身 在 输 
出 中 不 改变 显示 。 例 如 ， 
Text map(s, &Text ucase, &Text lcase) 
将 返回 s 的 一 个 备份 ， 只 是 原先 s 中 的 大 写字 和 母 被 转换 成 相应 的 小 写字 母 。Text_ucase 和 
Text_lcase 是 由 Text 答 出 的 预先 定义 的 描述 符 的 例子 。 完 整 的 列表 是 ; 
(exported data 274) 

extern const T Text cset; 

extern const T Text ascii; 

extern const T Text ucase; 

extern const T Text lcase; 


extern const T Text digits; 
extern const T Text null; 


Text_cset 是 一 个 含有 所 有 256 个 8 位 字符 的 字符 串 ，Text-ascii 含 有 127 个 ASCII 字 符 ， 
Text_ucase 是 字符 串 "ABCDEFGHIJKLMNOPQRSTUVWXYZ", Text lcase E #7 m 
"abcdefghijklmnopqrstuvwxyz", Text digits 0123456789, iljText null] aE FH, 
客户 调用 程序 可 以 用 这 些 字符 串 的 子 字 符 串 来 组 成 新 的 字符 串 。 

Text_map 将 记 住 最近 非 空 的 from 和 to 值 ， 并 且 当 from 和 to 均 为 为 空 时 将 使 用 这 些 值 。 
from 和 to 中 只 有 一 个 为 空 ， 或 者 当 from 和 to 非 空 时 from->len 不 等 于 to->len， 则 会 产生 可 检查 
的 运行 期 错误 。 Text maps] 以 引发 异常 Mem_Failed 。 

字符 串通 过 调用 如 下 函数 进行 比较 : 


(exported functions 271)+= 
extern int Text cmp(T s1, T s2); 


函数 返回 小 于 零 、 等 于 零 和 大 于 零 的 值 ， 分 别 对 应 按 词典 序 s1 的 字符 少 于 s2 、 等 于 s2 和 大 于 
52 三 种 情况 。 
Text 导 出 一 组 字符 囊 分 析 函 数 ， 这 些 函 数 与 Str 导 出 的 那些 函数 几乎 一 致 。 下 面 将 要 描述 
的 函数 的 确 接受 所 检查 的 字符 串 中 的 位 置 ， 这 些 位 置 通常 产生 表示 分 析 的 状态 的 编码 。 在 下 
面 的 描述 中 ,s [13] 表示 s 中 在 位 置 1 和 之 间 的 子 字符 串 Ms [i] 表示 在 位 置 ;右边 的 字符 。 
下 面 的 函数 将 搜索 单个 字符 或 者 一 组 字符 。 在 任何 情况 下 ， 如 颗 或 者 j 表 示 一 个 不 存在 
[274] ”的 位 置 ， 则 会 产生 可 检查 的 运行 期 错误 。 
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‘(exported functions 271)+= 
extern int Text chr (T s, int i, int j, int C); 
extern int Text rchr (T s, int i, int j, int c); 
extern int Text upto (T s, int i, int j, T set); 
extern int Text rupto(T s, int i, int j, T set): 
extern int Text any (T s, int i, T set); 
extern int Text many (T s, int i, int j, T set); 
extern int Text rmany(T s, int i, int j, T set); 
Text_chr 返 回 c 在 s [ij] 中 最 左 出 现 的 左 邻 正 位 管 ，Text_rchr 返 回 最 右 出 现 的 左 邻 正 位 置 。 这 
两 个 函数 当 c 不 出 现在 s [1:5]. 中 时 都 返回 零 值 。Text_upto 返 回 s [ij] 中 最 左 出 现 set 中 任意 元 素 
的 左 邻 正 位置 ，Text_rupto 返 回 最 右 出 现 左 邻 正 位 置 。 如 果 set 中 元 素 不 出 现在 s [ij] 中 ， 则 
这 两 个 函数 都 返回 零 值 。 
如 果 s [i] 等 于 c ， 则 Text_any 返 回 Text_ pos(s,j)+1， 否 则 ， 返 回 零 。 如 果 s [ij] 由 集合 set 
中 的 一 个 字符 开始 ， 则 Text_many 返 回 一 个 正 的 位 置 , 后 面 是 set 中 的 非 空 字符 的 序列 ， 否 则 
返回 零 值 。 如 果 s [i:j] 由 set 中 的 一 个 字符 结束 ， 则 Text_ Imany 返 回 set 中 的 字符 组 成 的 非 空 序 
列 的 前 面 的 位 置 。 否 则 ， 返 回 零 值 。 
还 有 一 些 寻找 字符 串 的 分 析 函数 。 
(exported functions 271)+= 
extern int Text find (T s, int i, int j, T str); 
extern int Text_rfind (T s, int i, int j, T str); 


extern int Text match (T s, int i, int j, T str); 
extern int Text rmatch(T s, int i, int j. T str); 


Text_find 返 回 str 在 s [i:j] 中 出 现 的 最 左 端的 位 置 之 前 的 一 个 正 位 置 ， 而 Text_rfind 返 回 str 在 
s [i] 中 出 现 的 最 右 端 的 位 置 之 前 的 一 个 正 的 位 置 。 如 果 str 在 s lij] 中 不 出 现 ， 则 这 两 个 函数 
都 返回 零 值 。 
AR [i] 从 字符 串 str 开 始 ， 则 Text_match 返回 Text _pos(s,i)+strlen, Aik RH., 
PRK 
(exported functions 271)+= 
extern void Text fmt(int code, va list *app, 


int putCint c, void *cl), void *cl, 
unsigned char flags[], int width, int precision); 





可 以 在 Fmt 接 口中 作为 转换 函数 来 使 用 。 它 使 用 Text_T 的 指针 并 根据 可 选 的 参数 flags 、width 
和 Precision 来 格式 化 字符 串 ， 其 中 格式 化 方式 同 prind 代 码 %s 格 式 化 它 的 参数 的 方式 相同 。 
使 用 Text_T 的 指针 是 因为 在 标准 C 库 函数 中 ， 在 可 变 长 度 参数 列表 的 变量 部 分 传递 一 个 小 的 
结构 可 能 不 方便 。 如 果 Text_T 的 指针 为 空 ， 或 者 app 或 flags 为 空 ， 都 会 产生 可 检查 的 运行 期 
错误 。 

Text 给 了 客户 调用 程序 有 限 的 控制 权 来 控制 字符 申 空 间 的 分 配 ， 其 中 字符 串 空间 用 来 存 
储 上 面 所 描述 的 能 返回 描述 符 的 函数 所 返回 的 结果 字符 申 。 特别 地 ， 下 面 的 函数 将 存储 空间 
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当 作 堆栈 来 处 理 。 


(exported types 270)+= 
typedef struct Text save T *Text save T; 


(exported functions 271)+= 
extern Text save T Text save(void); 
extern void Text.restore(Text save T *save); 


Text_save 返 回 隐 式 指 针 类 型 Text_save_T 的 值 ， 其 中 Text_save_T 对 字符 串 空间 的 顶部 
(top) 进行 编码 。 该 值 以 后 可 以 传递 给 Text_restore 来 释放 在 Text_save_T 被 创建 时 所 分 配 的 
字符 串 空间 部 分 。 如 果 h 是 Text_save_T 类 型 的 值 ， 则 调用 Text_restore(h) 将 使 所 有 在 h 之 后 创 
建 的 描述 符 和 Text_save_T 的 值 无 效 。 将 一 个 空 的 Text_save T 传递 给 Text_restore 将 会 产生 
可 检查 的 运行 期 错误 。 而 使 用 这 些 值 将 会 产生 不 可 检查 的 运行 期 错误 。Text_save 可 以 引发 
异常 Mem_Failed。 


16.2 实现 


Text 的 实现 同 Str 的 实现 非常 相似 , 但 是 Text 函 数 可 以 对 一 些 重要 的 特殊 情况 加 以 利用 ， 
[276] 下 面 将 详细 介绍 。 


(text.ġ= 
#include <string.h> 
#include <limits.h> 
#include "assert.h" 
Zinclude "fmt.h" 
#include "text.h" 
#include "mem.h" 


#define T Text. T 


(macros 278) 

(types 287) 

(data 277) 

(static functions 286) 
(functions 278) 


常量 描述 符 都 指向 一 个 由 所 有 256 个 字符 组 成 的 字符 中 ， 


(data 277) 
static char cset[] = 
"\000\001\,002\003\004\005\006\ 007\010\011\012\013\014\015\016\017" 
"\020\021\022\023\024\025\026\027\030\031\032\033\034\035\036\037" 
"\040\041\042\043\044\045\046\.047\050\051\052\053\054\055\056\057" 
"\060\061\062\,063\064\065\066\067\070\071\072\073\074\075\076\077" 
"\100\101\102\103\104\ 105\106\ 107\110\111\112\ 113\114\115\116\ 117" 
"\120\121\122\123\124\125\126\127\130\131\132\133\134\135\136\ 137" 
"\140\141\142\143\144\145\146\147\150\151\152\153\154\155\156\157" 
"\160\161\162\163\164\165\166\167\170\ 171\172\173\174\175\ 176\ 177" 
"\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217" 
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"\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237" 
"\240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257" 
"\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277" 
"\300\301\302\303\304\ 305\306\ 307\310\311\312\313\314\315\316\317" 
"\ 320\321\322\323\324\325\326\327\330\331\332\333\334\335\336\ 337" 
"\340\341\342\343\344\345\346\347\350\351\352\353\354\355\356\ 357" 
"\ 360\361\362\363\364\365\ 366\367\ 370\371\372\373\374\375\376\377" 


const T Text_cset = { 256, cset }; 
const T Text_ascii = { 127, cset }; 
const T Text ucase = ( 26, cset + 'A' }; 
const T Text_Icase = { 26, cset + 'a' }; 
const T Text digits = { 10, cset + '0' }; 


const T Text null = { 0, cset }; 
Text 函 数 接 受 指 针 ， 但 是 将 它们 转换 成 字符 索引 以 便 能 访问 字符 串 中 的 字符 。 一 个 正 的 
位 置 通过 减 一 转换 成 索引 ， 而 一 个 非 负 的 位 置 通过 加 上 该 字符 申 的 长 度 而 转换 成 索引 ， 
(macros 278)= . 
#define idxCi, lem (Ci) <= 0? (i) + (lem : (D - 1) 
相反 地 ， 一 个 索引 通过 加 一 转换 成 一 个 正 的 位 置 ， 如 Text_pos 的 实现 所 显示 的 那样 ， 在 
Text_pos 中 ， 先 将 位 置 参 数 转化 成 索引 ， 然 后 再 将 索引 转化 回 一 个 正 的 位 置 。 
(functions 278)= 
int Text_pos(T s, int i) { 
assert(s.len >= 0 && s.str); 
i = idx(i, s.len); 
assert(i >= 0 && i <= s.len); 
return i + 1; 
} 
Text_pos 中 的 第 一 个 assert 函 数 会 产生 可 检查 的 运行 期 错误 ， 要 求 所 有 的 Text_T s 必 须 带 有 非 
负 的 len 域 和 非 空 的 str 域 。 第 二 个 assert 函 数 声明 是 位 置 ; 现在 是 索引 相应 于 s 中 的 有 
效 的 位 置 的 可 检查 的 运行 期 错误 。 如 果 s 有 N 个 字符 ， 则 有 效 的 索引 是 从 零 到 N_1， 但 是 有 效 
的 位 置 是 1 到 N+1 ， 这 就 是 为 什么 第 二 个 assert 函 数 声明 有 N 个 索引 的 原因 。 
Text_box 和 Text_sub 都 建立 和 返回 一 个 新 的 描述 符 。 


(functions 278)+= 
T Text box(const char *str, int len) 1 
T text; 





assert(str); 
assert(len »- 0); 
text.str - str; 
text.len = len; 
return text; 


} 
Text_sub 与 此 类 似 ， 但 是 它 必须 将 它 的 位 置 参 数 转 换 成 索引 以 便 能 计算 结果 的 长 度 ， 
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(functions 27842 
T Text sub(T s, int i, int j) { 
T text; 


(convert i and j to indices in O..s. len 279) 
text.len = j - i; 

text.str = s.str + i; 

return text; 


} 
如 上 所 示 ， 当 它们 从 位 置 转换 成 索引 后 ， 在 ij 和 j 之 间 有 j-i 个 字符 。 用 以 转换 的 代码 也 交换 i 
和 以便 i 总 能 代表 最 左 端的 字符 的 索引 。 
(convert i and j to indices in 0..s. len 279)= 
assert(s.len >= 0 && s.str); 
i = idx(i, s.len); 
j = idx(j, s.len); 
if Gi > j) { intt =i; i = j; j = t; } 
assert(i >= 0 && j <= s.len); 
最 后 一 个 字符 右边 的 位 置 被 转化 成 一 个 不 存在 的 字符 的 索引 ， 并 且 断 言 声明 也 接受 这 样 的 位 
置 。 只 有 在 这 些 索引 不 用 于 获取 或 者 存储 字符 时 才 不 使 用 <comnyerf i and j to indices in 
0..s.len 279>。 例 如 ，Text_sub 只 使 用 它们 计算 开始 的 位 置 和 长 度 。 其 他 的 Text 函 数 只 有 在 
检测 到 和 j 是 有 效 的 索引 时 才 使 用 i 和 的 值 。 
Text_put 和 Text_get 将 字符 中 复制 进 空间 或 者 从 空间 复制 出 字符 串 。Text 执 行 它 自己 的 
分 配 函 数 *alloc(int len) 来 分 配 len 字 节 的 字符 中 空间。 这样 做 有 一 些 原因 ， 第 一 ，alloc 不 使 
用 在 通用 分 配 程序 中 使 用 的 存储 块头 部 ， 以 便 可 以 将 字符 串 相 连 。 这 是 对 Text_dup 和 
Text_cat 里 要 的 优化 。 第 二 ，alloc 可 以 避免 对 齐 (alignment )， 因 为 字符 没有 对 齐 限制 。 最 
Ja, alloc 必须 同 Text_save 和 Text_restore 共 同 作 用 。 在 16.2.2 节 中 将 开始 一 起 描述 alloc 、 
Text_save 和 Text_restore , 
Text_put 是 分 配 字符 串 空间 的 少数 典型 的 Text 函 数 。 它 调用 alloc 来 分 配 所 需 的 空间 、 将 
参数 字符 中 复制 到 分 配 的 空间 中 并 返回 适当 的 描述 符 : 
(functions 278)+= 


T Text put(const char *str) { 
T text; 








assert(str); 

text.len = strlen(str); 

text.str = memcpy(alloc(text.len), str, text.len); 
return text; 


H 
Text_put 调 用 memcpy 而 非 strcpy ， 因 为 它 不 能 向 text.str 中 添加 空 字 符 。 
Text_get 止 好 相反 : 它 将 字符 趾 空 间 中 的 字符 串 复制 成 C 形 式 的 字符 串 。 如 果 C 形 式 的 字 
符 串 指针 为 空 ， 则 Text_get 调 用 Mem 的 通用 分 配 程序 来 为 字符 串 和 空 结束 符 分 配 空 间 ; 
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(functions 278)+= 
char *Text get(char *str, int size, T s) { 
assert(s.len >= 0 && s.str); 
if (str == NULL) 
str = ALLOC(s.len + 1); 
else 
assert(size >= s.len + 1); 
memcpy(str, s.str, s.len); 
str[s.len] = '\0'; 
return str; 


} 
Text_get 调 用 memcpy 而 非 strncpy ， 央 为 它 必 须 复 制 出 现在 中 的 空 字符 。 280 


16.2.1 字符 串 操 作 


Text_dup 将 Text_T 的 参数 s 复 制 n 次 。 


(functions 278)+= 
T Text_dup(T s, int n) { 
assert(s.len >= 0 && s.str); 
assert(n >= 0); 
(Text dup 281) < 
} 


AR JURE EE UES PRE UIS S SE ts n A RES EFT A RO. OU, Ss 是 空 字 符 串 或 者 n 等 
于 0， 则 Text_dup 返 回 一 个 空 的 字符 串 ， 如 果 n 为 1 ， 则 Text_dup 就 返回 s : 


(Text dup 281)= 
if (n == 0 || s.len == 0) 
return Text null; 
if (n = 1) 
return s; 


如 果 最 近 已 经 创建 Ts ， 则 .str 可 能 位 于 字符 串 空 间 的 未 尾 ， 即 ，s.strys len 可 能 等 于 下 
一 个 空闲 字 节 的 地 址 。 如 果 是 这 样 ， 则 只 需要 n -1 个 s， 因为 初始 的 s 可 以 作为 第 一 个 备份 。 
在 第 16.2.2 节 中 定义 的 宏 isatend (s, n), HAS. str BA ESB 空间 的 末尾 ， 还 检查 是 否 
有 能 容纳 至 少 n 个 字符 的 空间 。 


(Text dup 281)+= 


T text; 

char *p; 

text.len = n*s. len; 

if Cisatend(s, text.len - S.len)) { 
text.str = s.str; 
p = alloc(text.len - s.len); 
n--; 

} else 
text.str = p = alloc(text.len); 

for ( ; n-- > 0; p += s.len) 
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memcpy(p, s.str, s.len); 
return text; 


} 
Text_cat 返 回 两 个 字符 串 s1 和 s2 相 连接 后 的 字符 串 。 


(functions 278)+= 
T Text_cat(T s1, T s2) { 
assert(sl.len >= 0 && sl.str); 
assert(s2.len >= 0 && s2.str); 
(Text. cat 282) 
} 


对 于 Text_dup ， 有 一 些 重 要 的 特殊 情况 可 以 避免 分 配 ,第 一 种 情况 是 s1 和 s2 中 有 一 个 为 空 时 ， 
Text_cat 就 可 以 只 返回 另外 一 个 字符 串 : 
(Text_cat 282)= 
if (sl.len == 0) 
return s2; 


if (s2.len == 0) 
return sl; 


s1 和 s2 可 以 已 经 是 相连 的 ， 这 种 情况 下 Text_cat 就 可 以 返回 这 个 整体 的 描述 符 ; 


(Text. cat 282)+= 
if (sl.str + sl.len == s2.str) { 
sl.len += s2.len; 
return sl; 


} 
如 果 s1 位 于 字符 串 空 间 的 末端 ， 则 只 需要 复制 322。 否则 ， 两 个 字符 串 都 要 复制 : 


(Text cat 282)+= 


1 
T text; 
text.len = s1l.len + s2.Jen; 
if Cisatend(s1, s2.Jen)) { 
text.str = sl.str; 
memcpy(alloc(s2.len), s2.str, s2.len); 
} else 1 
char *p; 
text.str - p = alloc(sl.len + s2.1en); 
memcpy(p, sl.str, s1.len); 
memcpy(p + si.len, s2.str, s2.1len); 
} 


return text; 


} 


Text_reyerse 将 以 相反 的 顺序 返回 s， 它 只 有 两 种 重要 的 特殊 情况 : s 为 空 字符 串 时 和 只 
有 一 个 字符 时 ; 


(functions 278)+= 
T Text reverse(T s) { 
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assert(s.len >= 0 && s.str); 
if (s.len == 0) 
return Text null; 
else if (s.len == 1) 
return s; 
else { 
T text; 
char *p; 
int i = s.len; 
text.len = s.len; 


text.str = p = alloc(s.len); 
while (--1 >= 0) 
*p++ = S.Str[i]; 


return text; 


} 

Text_map 的 实现 与 Str_map 的 实现 类 似 。 首 先 ， 它 用 from 和 to 字符 串 建 立 一 个 映射 到 字 
符 的 数组 。 如 果 给 定 输入 字符 c， 则 map [c] 就 是 出 现在 输出 字符 串 中 的 字符 。map 被 初始 化 
成 map [k] 等 于 ， 然 后 from 中 的 字符 被 用 来 索引 map 中 的 元 素 ， 其 中 这 些 元 素 将 要 与 to 中 的 
相应 字符 一 一 对 应 : 


(rebuild map 283)= 


int k; [283 | 
for (k = 0; k < Cint)sizeof map; k++) 

map[k] = k; 
assert(from->len == to->len); 


for (k = 0; k < from->len; k++) 
map[from->str[k]] = to->str[k]; 
inited = 1; 


在 map 被 初始 化 后 ， 标 志 inited 设 为 1 。inited 用 来 实现 可 检查 的 运行 期 错误 ， 第 一 次 调用 
Text, map 必须 定义 非 空 的 from 和 to 字符 中， 否则 将 通过 inited 生 成 可 检查 的 运行 期 错误 。 


(functions 278)+= 
T Text map(T s, const T *from, const T *to) ( 
static char map[256]; 
static int inited = 0; 


assert(s.len >= 0 && s.str); 
if (from && to) { 
(rebuild map 283) 
] else { 
assert(from == NULL && to == NULL); 
assert(inited); 
} 
if (s.len == 0) 
return Text nul11;. 
else { 
T text; 
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int i; 

char *p; 

text.len = s.len; 

text.str = p = alloc(s.len); 
for Gi = 0; i < s.len; i++) 


*p++ = map[s.str[i]]; 
return text; 


H 
Str_map 不 需要 inited 标 志 ， 因 为 它 不 可 能 将 一 个 字符 同 Str_map 中 的 空 字 符 对 应 起 来 ， 
断言 声明 map ['a'| 非 零 就 足以 实现 可 检查 的 运行 期 错误 ( 请 参见 15.3 节 相关 内 容 )。 然 而 ， 
Text_map 人 允许 所 有 可 能 的 映射 ， 因 此 不 能 使 用 map 中 的 值 来 进行 错误 检查 。 
Text_cmp 比 较 字 符 申 sl1 和 s2， 并 根据 s1 小 于 s2 、s1 等 于 82 和 s1 大 于 s2 三 种 情况 分 别 返 回 小 
于 、 等 于 0 和 大 于 0 的 值 。 一 个 重要 的 特殊 情形 是 当 s1 和 s2 指 向 同一 个 字符 串 时 ， 短 的 字符 串 
将 小 于 长 的 字符 串 。 同 样 地 ， 如 果 一 个 字符 串 是 另 一 个 字符 串 的 前 级 ， 则 短 的 那个 字符 串 小 。 


(functions 278)+= 
int Text cmp(T si, T s2) { 

assert(sl.len >= 0 && sl.str); 

assert(s2.len >= 0 && s2.str); 

if (sl.str == s2.str) 
return sl.len - s2.1en; 

else if (sl.len < s2.len) ( 
int cond - memcmp(sl.str, s2.str, si.len); 
return cond -- 0 ? -1 : cond; 

} else if (sl.len > s2.1en) { 
int cond = memcmp(sl.str, s2.str, s2.len); 
return cond == 0 ? «1 : cond; 

} else 
return memcmp(sl.str, s2.str, sl.len); 





} 
16.2.2 内存 管理 


Text 执 行 它 自己 的 内 存 分 配 程序 ， 以 便 它 能 利用 Text_dup 和 Text_cat 中 相 邻 的 字符 串 。 
既然 字符 串 空间 只 容纳 字符 ，Text 的 分 配 程 序 也 可 以 避免 存储 块头 部 (block header ) 和 对 
齐 问题 ， 这 样 就 可 以 节省 空间 。 分 配 程序 是 第 6 章 讲述 的 场 分 配 程序 (arena allocator ) 的 一 


个 简单 变 体 。 字 符 申 空间 类 似 一 个 单个 的 场 ， 在 这 里 被 分 配 的 存储 块 (chunk ) 出 现在 从 
head 引 出 的 列表 中 ; 


(data 277\+= 
static struct chunk { 
struct chunk *link; 
char *avail; 
char *limit; 
285 } head = { NULL, NULL, NULL }, *current = &head; 
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limit 域 指向 存储 块 末 尾 后 A — SE, avail km 55— T ZUR E B. linkt P — T £88 JR , 
所 指向 的 这 些 字 节 或 者 存储 块 都 是 空闲 的 。current 指 向 当前 的 存储 块 ， 即 是 在 当前 存储 块 中 
分 配 的 块 。 下 述 定义 初始 化 current， 使 之 指向 一 个 零 长 度 的 存储 块 ; 第 一 次 分 配 将 向 head 添 
加 一 个 新 的 存储 块 。 

alloc 从 当前 存储 块 中 分 配 len 个 字 节 ， 或 者 分 配 一 个 至 少 10k 字 节 的 新 存储 块 : 


(static functions 286)= 
static char *alloc(int len) { 

assert(len >= 0); 

if Ccurrent->avail + len > current-»limit) { 
current = current->link = 

ALLOC(sizeof (*current) + 10*1024 + len); 

current->avail = (char *)(current + 1); 
current->limit = current->avail + 10*1024 + len; 
current-»link = NULL; 

} 

current->avail += len; 

return current->avail - len; 


} 
current->avail 是 字符 串 空 间 的 尾部 空闲 字 节 的 地 址 。 如 果 s.str+s.len 等 于 current->avail , 
则 Text_T 型 的 s 出 现在 字符 串 空 间 的 尾部 。 因 此 宏 isatend 定 义 如 下 : 


(macros 278)+= 
fdefine isatend(s, m) ((s).str«(s).len == current->avail\ 
&& current->avail + (n) <= current-»limit) 


Text_dup 和 Text_cat 只 有 在 该 存储 块 中 有 足够 的 空闲 空间 时 才能 利用 出 现在 字符 串 空 间 尾 部 
的 字符 串 ， 此 空闲 空间 是 针对 isatend 的 第 二 个 参数 而 言 。 

Text_save 和 Text_restore 为 客户 调用 程序 提供 了 存储 和 恢复 字符 串 空间 尾部 位 置 的 方法 ， 
其 中 该 位 置 的 值 是 由 current 和 current->avail 的 值 确定 的 。Text_ save 返 回 下 述 实 例 的 一 
式 指针 : 

(types 287)= 

struct Text save T { 
struct chunk *current; 


char *avail; 
}; 


该 实例 中 带 有 current 和 current->avail 的 值 。 


(functions 278)+= 
Text save T Text save(void) { 
Text save T save; 


NEW(save) ; 

save-»current - current; 
Ssave-»avail = current-»avail; 
alloc(1); 
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return save; 


} 
Text_save 调 用 alloc (1) 在 字符 串 空 间 中 创建 一 个 “ 洞 Chole)”, WERZA, isatend X 
法 分 配 任何 字符 串 。 因 此 ， 字 符 串 不 能 跨越 返回 给 客户 调用 程序 的 字符 串 空 间 的 尾部 。 
Text restore f & current 和 current->avail 的 值 ， 释 放 当前 块 后 面 所 有 的 存储 块 。 


(functions 278)+= 
void Text restore(Text save T *save) { 
struct chunk *p, *q; 


assert(save && *save); 

current = (*save)-»current; 

current->avail = (*save)->avail; 

FREE(*save); 

for (p = current->link; p; p- q) { 
q = p-»link; 
FREE(Cp) ; 

} 

current->link = NULL; 

287 } 


16.2.3 分析 字符 串 


由 Text 导 出 的 其 他 函数 都 检测 字符 串 ， 但 都 不 分 配 新 的 字符 申 。 
Text_chr 搜 索 一 个 字符 出 现在 s [i:j] 中 最 左 端的 位 置 ; 


(functions 278)+= 
int Text chr(T s, int i, int j, int c) { 
(convert i and j to indices in 0..s. len 279) 
for C; i< j; ie) 
if (s.str[i] == c) 
return i + 1; 


return 0; 
} . 
如 果 s.str [i] 等 于 5， 则 i+1 就 是 s 中 那个 字符 左面 的 位 置 。Text_rchr 功 能 相近 , 但 是 寻找 c 出 现 
的 最 右面 的 位 置 。 


(functions 278)+= 
int Text rchr(T s, int i, int j, int c) { 
(convert i and j to indices in 0..s. len 279) 
while (j » i) 
if (s.str[{--j] == c) 
return j + 1; 
return 0; 


} 
Text_upto 和 Text_rupto 与 Text_chr 和 Text_rchr 功 能 也 类 似 ， 只 是 它们 搜索 一 个 字符 集合 
中 的 字符 出 现 的 位 置 ， 其 中 该 集合 昆 由 Text_T 说 明 的 ; 


ATA P 


ay 





(functions 278)+= 
int Text upto(T s, int i, int j, T set) { 
assert(set.len »- O && set.str); 
(convert i and j to indices in O..s. len 279) 
for C; i< j; i++) 
if (memchr(set.str, s.str[i], set.len)) 
return i + 1; 

return 0; 


int Text rupto(T s, int i, int j, T set) { 
assert(set.len >= 0 && set.str); 
(convert i and j to indices in 0..s. len 279) 
while (j > i) 
if (memchr(set.str, s.str[--j], set.len)) 
return j + 1; 
return 0; 


} 


Str_upto 和 Str_rupto 使 用 标准 C 库 函数 来 检查 s 中 的 字符 是 否 出 现在 set 中 。Text 函 数 不 能 使 用 
strchr ， 因 为 s 和 set 都 可 能 包含 空 字符 ， 因 此 它们 使 用 memchr ，memchr 不 把 空 字 符 解释 为 字 


符 串 的 结束 符 。 


Text_find 和 Text_rfind 寻 找 字符 串 在 s [ij] 中 出 现 的 位 置 ， 它 们 也 有 类 似 的 问题 ， 这些 函 
数 的 Sr 变量 使 用 strncmp 比较 子 字符 串 ， 但 是 Text 函 数 必须 使 用 memcmp ， 因 为 memcmp 能 处 
理 带 有 空 字 符 的 情况 。Text_find 使 用 memcmp 搜 索 str 给 定 的 字符 中 在 8 [ij] 中 出 现 的 最 左面 


的 位 置 。 值 的 注意 的 是 str 是 空 字符 串 时 和 str 只 有 -- 个 字符 时 这 两 种 情况 。 


(functions 278)+= 
int Text find(T s, int i, int j, T str) ( 
assert(str.len »- 0 && str.str); 
(convert i and j to indices in O..s. len 279) 
if (str.len == 0) 
return i 4 1; 
else if (str.len == 1) { 
for (; i< j; i++) 
if (s.str[i] == *str.str) 
return i + 1; 
} else 
for ( ; i + str.len <= j; i++) 
if Cequal(s, i, str)) 
return i + 1; 
return 0; 


} 


(macros 278)+= 
#define equal(s, i, t) \ 
(memcmp(&(s).str[i], (t).str, (t).len) == 0) 


通常 情况 下 ，Text_find 不 能 检查 超过 s [ij] 的 字符 串 ， 这 是 循环 结束 的 条 件 。 


Text_rfind 类 似 于 Text_find ， 但 是 它 搜索 str 出 现 的 最 右边 的 位 置 ， 从 而 避免 检测 出 现在 s 
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[i3] 前 面 的 字符 。 


(functions 278)+= 
int Text rfind(T s, int i, int j, T str) { 
assert(str.len >= 0 && str.str); 
(convert i and j to indices in O..s. len 279) 
if (str.len == 0) 
return j + 1; 
else if (str.len == 1) { 
while (j > 1) 
if (s.str[--j] == *str.str) 
return j + 1; 
} else 
for C ; j - str.len >= i; j--) 
if Cequal(s, j - str.Jen, str)) 
return j - str.len + 1; 
return O0; 


} 
Text_any 扫 描 s 中 位 于 i 右面 的 字符 ， 如 果 该 字符 出 现在 set 中 则 返回 Text_pos(s,i)+1。 


(functions 278)+= 

int Text any(T s, int i, T set) { 
assert(s.len >= 0 && s.str); 
assert(set.len >= 0 && set.str); 
i = idx(i, s.len); 
assert(i >= 0 && i <= s.len); 
if Gi < s.len && memchr(set.str, s.str[i], set.len)) 

return i + 2; 

return 0; 


} 
如 果 s [i] 在 set 中 ， 则 Text_any 返 回 it+2， 因 为 i+1 是 s [i] 的 位 置 ， 央 此 i+2 是 s [i] 后 面 的 位 置 。 
Text_many 和 Text_rmany 经 常 在 Text_upto 和 Text_rupto 的 后 面 调 用 。 它 们 扫描 一 个 或 更 
多 个 由 一 个 集合 set 提 供 的 字符 并 返回 第 一 个 不 在 集合 中 的 字符 的 左面 的 位 置 。Text_many 扫 
描 出 现在 s [i:j] 开头 的 字符 。 


(functions 278)+= 
int Text many(T s, int i, int j, T set) { 

assert(set.len >= 0 && set.str); 

(convert i and j to indices in 0..s. len 279) 

if Ci < j && memchr(set.str, s.str[i], set.len)) { 
do 

i++; 

while (i < j 
&& memchr(set.str, s.str[i], set.len)); 
return i+ 1; 

} 


return 0; 


d 
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Text rmany [1] Zc 扫描 set 中 出 现在 s [i:j] 尾部 的 一 个 或 更 多 的 字符 : 


(functions 278)+= 
int Text rmany(T s, int i, int j, T set) { 


j 


assert(set.len >= 0 && set.str); 
(convert i and j to indices in 0..s. len 279) 
if (j > i && memchr(set.str, s.str[j-1], set.len)) ( 
do 
--j; 
while (j >= i 
&& memchr(set.str, s.str[j], set.len)); 
return j * 2; 
H 


return 0; 


do-while 循 环 在 j 不 是 set 中 的 字符 的 索引 或 者 j 等 于 i-1 时 结束 。 第 一 种 情况 ，j+2 是 导致 循环 
终止 的 字符 右面 的 位 置 , 因此 是 set 中 字符 左面 的 位 置 。 第 二 种 情况 , j+2 是 s [ij] 左面 的 位 置 ， 
其 中 s [3] 含有 set 中 所 有 的 字符 。 

如 果 s [i:j] 从 str 给 定 的 字符 串 开 始 的 ， 则 Text_match 扫 描 那 个 字符 串 是 否 出 现 。 与 
Text_find 类 似 ，Text_match 的 重要 的 特殊 情况 是 str 为 空 字符 串 时 和 str 只 有 一 个 字符 时 。 
Text_match 不 能 检测 s [i:j] 外 面 的 字符 串 ， 下 面 第 三 个 这 条 件 确 保 只 检查 s [i:j] 中 的 字符 。 








(functions 278)+= 
int Text match(T s, int i, int j, T str) { 


} 


assert(str.len >= 0 && str.str); 
(convert i and j to indices in0..s.1en 279) 
if (str.len == 0) 
return i + 1; 
else if (str.len == 1) ( 
if (i < j && s.str[i] == *str.str) 
return i + 2; 
} else if (i + str.len <= j && equal(s, i, str)) 
return i + str.len + 1; 
return 0; 


Text. rmatch 与 Text_match 类 似 ， 但 是 如 果 s [ij] 以 那个 字符 串 结束 ， 则 它 返 回 str 中 字符 串 之 
前 的 位 置 。 注 意 不 要 检查 s [ij] 前 面 的 字符 。 


(functions 278)+= 
int Text rmatch(T s, int i, int j. T str) { 


assert(str.len >= 0 && str.str); 
(convert i and j to indices in 0..s. len 279) 
if (str.len == 0) 
return j + 1; 
else if (str.len == 1) { 
if (j > i && s.str[j-1] == *str.str) 
return j; 
} else if Gj - str.len >= i 
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&& equal(s, j - str.len, str)) 
return j - str.len + 1; 


return 0; 


16.2.4 转换 函数 


最 后 一 个 国 数 是 Text_fmt， 它 是 一 个 格式 转换 函数 ， 同 FEmt 接 口 导 出 的 函数 一 起 使 用 。 
Text_fmt 用 于 以 与 printf 的 %s 格 式 相同 的 样式 打印 Text_T。 它 调用 Fmt_puts，Fmt_puts 为 
Text_T 规 定 了 flags 、width 和 precision ， 方式 与 printf 为 C 字 符 串 定义 的 方式 相同 。 

(functions 278)+= 

void Text fmt(int code, va list *app, 
int put(int c, void *c1), void *cl, 


unsigned char flags[], int width, int precision) { 
T *s; 


assert(app && flags); 
S = va. arg(*app, T*); 
assert(s && s->len >= 0 && s->str); 
Fmt_puts(s->str, s->len, put, cl, flags, 
width, precision); 
H 
不 同 于 Text 接 口中 所 有 其 他 的 函数 ，Text_fmt 带 有 一 个 指向 Text_T 的 指针 ， 而 不 是 
Text_T 本 身 。Text_T 很 小 ， 一 般 为 两 个 字 大 小 ， 一 般 是 不 可 能 辨别 两 个 字 的 结构 和 可 变 长 度 
参数 列表 中 的 双 精 度 型 之 间 的 区 别 的 。 因 此 ， 一 些 C 实 现 不 能 通过 可 变 长 度 参 数列 表 的 值 来 
传递 两 个 字 的 结构 。 传 递 Text_T 指 针 在 所 有 的 实现 中 避免 了 这 些 问 题 。 


参考 书目 浅 析 


Text_T 同 SNOBOL4 (Griswold 1972 ) 和 Icon (Griswold 和 Griswold 1990 ) 在 语义 和 实 
现 上 都 吓 类 似 的 。 这 两 种 语言 都 是 通用 的 、 字 符 串 处 理 的 语言 ， 并 且 都 有 与 Text 导 出 的 函数 
RM A RE 

FB DL BAI as FAA BRS FF BLA EUR DL AK W FRR PL i SE . 
中 。XPL 编 译 器 发 生 器 (McKeeman, Horning flWortman1970 ) 是 一 个 早期 的 例子 。 在 识别 
Text_T 的 系统 里 ,无 用 单元 收集 程序 来 处 理 字 符 串 空间 。Icon 用 XPL 的 无 用 单元 收集 程序 来 
回收 没有 被 任何 已 知 的 Text_T (Hanson 1980 ) 所 引用 的 字符 串 空 间 。 它 通过 将 Text_T 复 制 
到 字符 串 空 间 的 开始 部 分 来 使 字符 串 变 得 紧凑 。 

Hansen (1992 ) 描述 了 字符 串 的 一 个 完全 不 同 的 表述 方法 ， 在 该 字符 捉 中 ， 一 个 子 字符 
串 描 述 符 带 有 足够 的 信息 来 恢复 它 所 属 的 较 大 的 字符 串 。 这 种 表示 方法 使 得 在 其 他 事物 中 间 
向 左 或 者 向 右 扩 展 字 符 串 成 为 可 能 。 
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“rope” 是 另外 一 种 表示 字符 串 的 方法 ， 在 这 种 表示 方法 中 ， 字 符 趾 册子 字符 中 的 树 来 
表示 (Boehm, Atkinson 和 Plass 1995 )。 在 rope 中 的 字符 可 以 在 线性 时 间 内 移动 ， 就 像 那些 
在 Text_T 中 的 字符 或 者 在 C 字 符 串 中 的 字符 都 样 ， 但 是 子 字符 申 操作 将 花费 对 数 时 间 。 但 是 
它 的 连接 速度 快 得 多 : 连接 两 个 rope 花 费 的 是 常量 时 间 。 男 外 一 个 有 用 的 特性 是 一 个 ope 可 
以 由 一 个 能 产生 第 i 个 字符 的 函数 来 描述 。 


练习 


16.1 
16.2 


16.3 


16.5 


使 用 Text 函 数 重新 写 第 15.2 节 中 讲述 的 ids.c 。 

Text_save 和 Text_restore 并 不 十 分 完善 。 例 如 下 面 的 序列 是 错 误 的 ,但 是 没有 被 
检测 到 。 

Text save T x, y; 

x = Text. save; 

y= Text_save(); 


Text restore(&x); 


Text. restore (&y) ; 

调用 Text_restore(&&x) 之 后 ，y 就 无 效 了 ， 因 为 它 描述 的 是 x 之 后 的 一 个 字符 中 空间 
的 位 置 。 修 改 Text 的 实现 ， 以 便 能 检测 到 该 错误 。 

Text_save 和 Text_restore 只 允许 堆栈 式 的 分 配 。 无 用 单元 收集 程序 可 能 更 好 一 些 ， 
但 是 需要 已 知 所 有 可 以 访问 的 Text_T。 设计 一 个 Text 函 数 的 扩展 版 本 ， 使 它 包含 
注册 Text_T 的 函数 和 Text_compact 函 数 ， 其 中 Text_compact 函 数 利 用 Hanson 
(1980 ) 中 描述 的 方法 将 所 有 已 经 注册 的 Text_T 所 引用 的 字符 串 放 到 字符 串 穴 间 
的 开始 部 分 ， 从 而 回收 被 没有 注册 的 Text_T 所 占用 的 空间 。 

将 搜索 字符 串 的 函数 加 以 扩展 ， 比 如 Text_find 和 Text_match ， 使 它们 接受 的 
Text_T 可 以 指定 正则 表达 式 而 不 仅仅 是 字符 串 Kernighan 和 Plauger (1976 ) fi 
述 了 正则 表达 式 和 匹配 它们 的 自动 机 的 实现 。 

基于 Hansen (1992 ) 所 描述 的 子 字符 串 模型 ， 设 计 一 个 接口 和 实现 。 
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第 17 章 ”扩展 精度 算法 


32 位 整 型 格式 的 计算 机 能 够 表示 从 -2 147 483 648 到 +2 147 483 647 的 有 符号 整数 (用 2 
的 补 码 表示 ) 和 从 0 到 4 294 967 295 的 无 符号 整数 ,这样 的 范围 对 于 大 部 分 应 用 程序 来 说 ， 
已 经 足够 大 了 , 但 是 也 有 一 些 应 用 程序 需要 更 大 的 范围 。 在 相对 紧凑 的 数值 范围 里 ， 整 型 表 
示 每 一 个 整数 值 。 而 在 极 大 的 数值 范围 里 ， 浮 点 数 表示 相对 较 少 的 值 。 仅 当 可 以 接受 精确 值 
的 近似 时 ,才能 用 浮 点 数 ， 如 同 在 许多 科技 应 用 中 奢 样 ,但 当 需 要 很 大 的 数值 范围 里 所 有 的 
整数 值 时 ， 就 用 不 上 浮 点 数 。 

本 章 表述 了 一 个 低级 接口 ，XP， 其 导出 的 函数 针对 在 固定 精度 的 扩展 整数 上 的 算法 运 
算 。XP 表 示 值 的 范围 仪 局 限于 所 利用 的 存储 器 的 大 小 。 此 接口 被 设计 用 来 服务 于 下 两 章 将 
会 讨论 到 的 高 级 接口 。 在 那些 需要 用 到 潜在 的 极 大 数值 范围 里 的 整数 的 应 用 程序 中 ， 将 会 用 
到 这 些 接口 。 





17.1 #0 


一 个 n 位 无 符号 整数 x 可 由 多 项 式 x= x, b"! + x, b? + xi b! + Xo 表示 。 在 这 里 b 为 底 
数 且 0 <xi<b。 在 有 着 32 位 无 符号 整 型 格式 的 计算 机 上 ,nn 是 32, b 是 2， 并且 用 32 位 中 的 一 位 表 
示 系 数 x;。 此 种 表示 能 被 推广 表示 在 任何 底数 下 的 一 个 无 符号 整数 。 例 如 ， 如 果 b 是 10， 邦 么 
每 一 个 x 是 0 到 9 之 间 的 一 个 数 ， 并 且 x 能 用 一 个 数组 表示 ， 比 如 用 数组 表示 数字 2 147 483 647 , 

unsigned char x[] = (7, 4, 6, 3, 8, 4, 7, 4, 1, 2 Y; 

这 里 x 上 保存 x;。 数 字 x; 出 现在 x 里 ， 并 从 x 里 的 最 低 有 效 数字 开始 ， 这 是 用 来 实现 算法 操 
作 最 便利 的 排序 方式 。 

选择 较 大 的 底数 可 以 节省 存储 器 容量 ， 因 为 底数 越 大 ， 数 字 也 就 越 大 。 例 如 ， 如 果 b 是 
2/5 = 65 536, 那么 每 一 个 数字 是 0 到 包括 65 535 之 间 的 一 个 数 ， 因 此 仅 需 要 两 个 数字 ( 四 个 
字 节 ) 来 表示 2 147 483 647; 

unsigned short x[] = { 65535, 32767 }; 

以 及 64 位 数字 

349052951084765949147849619903898133417764638493387843990820577 

可 由 具有 14 个 元 素 (28 个 字 节 ) 的 数组 表示 : 


( 38625, 9033, 28867, 3500, 30620, 54807, 4503, 
60627, 34909, 43799, 33017, 28372, 31785, 8 }. 
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BURDE, Jt HA BU KD EC rp BUG EM GUERRE RE RS — Rh, AK AR BU) 
的 底数 就 会 节省 空间 。 而 且 也 许 更 为 重要 的 是 ， 大 的 底数 会 使 一 些 算 法 操作 实现 起 来 更 为 复 
杂 。 如 下 面 详 述 的 那样 ， 如 果 一 个 无 符号 长 整数 能 够 保存 ?~1， 那么 就 能 避免 这 些 复杂 操作 。 
XP 使 用 的 是 b=2s 并 且 存 储 一 个 无 符号 字符 里 的 每 一 位 ， 这 是 因为 标准 C 保 证 一 个 无 符号 长 字 
符 至 少 有 32 位 ， 其 中 至 少 保存 3 个 字 节 ， 因 此 一 个 无 符号 长 字符 能 够 保存 值 ”-1=2%-1。 用 
b=28 ， 四 个 字 节 就 可 以 表示 值 2 147 483 647; 

unsigned char x[] = ( 255, 255, 255, 127 }; 
27 个 字 节 就 可 以 表示 如 上 所 示 的 64 位 数字 : 


{ 225, 150, 73, 35, 195, 112, 172, 13, 156, 119, 23, 214, 151, 17, 
211, 236, 93, 136, 23, 171, 249, 128, 212, 110, 41, 124, 8 }. 


XP 接口 揭示 了 下 面 的 表示 细节 : 


(xp. h)= 
#ifndef XP. INCLUDED 
#define XP. INCLUDED 


#define T XP T 
typedef unsigned char *T; 


(exported functions 299) 
#undef T 
#endif 
更 确切 地 说 ，XP_T 就 是 一 个 无 符号 字符 数组 ， 保 存 以 2 为 底数 的 za 位 数 ， 最 低 有 效 位 在 前 。 
以 下 描述 的 XP 函数 都 把 a 作为 输入 参数 ，XP_T 作 为 输入 输出 参数 ， 数 组 必须 足够 容纳 n 
个 数字 。 如 果 向 接口 传送 一 个 空 XP_T, 或 者 传送 的 这 个 XP_T 太 小 , 或 者 其 没有 非 正 的 长 度 ， 
那么 会 产生 不 可 检查 的 运行 期 错误 。XP 是 一 个 危险 的 接口 ， 因 为 它 忽略 了 多 数 可 检查 的 运 
行 期 错误 。 进 行 这 样 的 设计 有 两 方面 的 原因 。XP 面 对 的 客户 端 程序 是 高 级 接口 ， 为 了 避免 
错误 也 许 其 自身 会 实现 可 检查 的 运行 期 错误 。 第 一 ， 如 果 必 须 考 虑 性 能 的 话 ，XP 的 接口 应 
尽 可 能 的 简单 ， 这 样 一 些 函 数 可 以 用 汇编 语言 实现 。 第 二 个 因素 也 是 为 什么 XP 的 任何 函数 
都 不 进行 分 配 操作 的 原因 。 
PRU 


(exported functions 299)= 
extern int XP add(int n, Tz, Tx, T y, int carry); 
extern int XP sub(int n, Tz, Tx, T y, int borrow); 





实现 了 z=x+y+carry 和 z=x-y-borrow。 这 里 和 以 下 的 x y 和 z 指 的 是 数组 x 、y 和 z 表 示 的 整 
数值 ， 它 们 被 认为 含有 an 位 数 。carry 和 borrow 必 须 为 0 或 1 。XP_add 用 数组 z[0..n-1] 来 保存 n 
位 求 和 x+y+carry， 并 返回 最 终 进位 的 最 高 有 效 位 。XP_sub 用 数组 z[0..n-1j 来 保存 n 位 求 差 
X-y-borrow， 并 返回 最 终 借 位 的 最 高 有 效 位 。 因 而 ， 如 果 XP_add 返 回 1 ， 那么 x+y+carry 不 填充 
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个 数字 ， 如 果 XP_sub 返 回 1 ， 那 么 y>x。， 针 对 这 两 个 函数 ， 对 于 任何 xz 、y 和 z， 它 们 属于 同 
一 个 XP_I 并 不 是 一 个 错误 。 


(exported functions 299)+= 
extern int XP mul(T z, int n, T x, int m, T y); 


实现 z=z+x'y， 这 里 x 有 n 个 数字 , y 有 m 个 数字 。z 必 须 足 够 的 大 以 保存 n+m 个 数字 : 
XP_mul 将 z 加 上 n+m 位 数字 的 乘积 x - y， 并 把 结果 赋予 z。 当 z 被 初始 化 为 0 时 ，XP_mul 用 数 
组 z[0..n+m-1] 来 保存 Xx. y, XP_mul 返 回 n+m 位 数字 乘积 最 终 进 位 的 最 高 有 效 位 。 对 于 z 来 说 ， 
如 果 与 x 或 y 有 相间 的 XP_T 则 会 产生 不 可 检查 的 运行 期 错误 。 

XP_mul 阅 明了 在 何 处 const 限 定 词 可 以 帮助 区 分 输入 和 输出 参数 并 记录 这 些 类 型 的 运行 
期 错误 。 声 明 


extern int XP mul(T z, int n, const unsigned char *x, 
int m, const unsigned char *y); 


使 得 XP_mul 读 x，y 和 写 z 的 过 程 更 为 清楚 。 内 而 指出 z 不 应 该 与 x 或 y 相 同 。x 和 y 不 能 用 const 
T， 因 为 const T 的 意思 是 “指向 一 个 无 符号 字符 的 常量 指针 "”， 而 不 是 想 要 的 “指向 一 个 无 
符号 常量 字符 的 指针 ”( 见 2.4 节 相关 内 容 定义 )。 练 习 19.5 研 究 了 其 他 一 些 正 确 使 用 const T 
的 定义 。 

然而 ， 央 为 一 个 无 符号 char* 能 够 传递 给 const 无 符号 char* ， 所 以 const 限 定 符 不 能 阻止 
传递 与 x 和 z ( 或 者 y 和 z ) 相同 的 XP_T。 但 是 const 的 用 法 却 允许 一 个 const 无 符号 charx 传递 x 
Fly; 在 以 上 针对 XP_mul 的 XP 的 声明 里 ， 必 须 用 类 型 强制 转换 来 传递 这 些 值 。 在 XP 中 ， 
const 的 巨大 好 处 并 不 能 抵消 它 的 元 长 。 

函数 


(exported functions 299)+= 
extern int XP. div(Cint n, Tq, Tx, intm, Ty, T r,T tmp); 


实现 了 除法 ; 它 计算 了 q=x/y 和 r=x mod y; q 和 x 有 n 位 数 ，r 和 y 有 站 位 数 。 an Ry FO, 
XP_div 返 回 0 并 保持 9 和 r 不 变 。 否 则 ， 将 返回 1 。tmp 必 须 至 少 能 够 有 n+m+2 位 数 。9q 或 [ 足 x 或 
y 中 的 一 个 、q 和 r 有 相同 的 XP_T， 或 者 mp 太 小 ， 以 上 这 些 情况 都 会 产生 不 可 检查 的 运行 期 


错误 。 
函数 
(exported functions 299)+= 
extern int XP. sum Cint n, Tz, T x, int y); 
extern int XP diff Cint n, Tz, T x, int y); 
extern int XP product (int n, T z, T x, int y); 
extern int XP. quotient(int n, T z, T X, int y); 


实现 了 加 法 、 减 法 、 乘 法 以 及 一 个 n 位 XP_T 被 底数 为 28 的 单位 数 y 除 的 除法 ，XpP_sum 用 数组 
z[0..n-1] 保 {x+y 并 返回 最 终 进 位 的 最 高 有 效 位 。XP_diff 用 数组 z[0..n-1] 保 存 x-y 并 返回 最 
终 借 位 的 最 高 有 效 位 。 对 于 XP_sum RXP. diff, ，y 必 须 为 正 并 且 不 能 超出 其 底数 28。 
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XP. product Hi £Hz[0..n -1] fex + y 并 返回 最 终 进位 的 最 高 有 效 位 ; 进位 可 能 与 2 -1 一 
样 大 。XP_quotient 用 数组 z[0..n-1] 保 存 x/y 并 返回 ，x mod y; 余数 能 与 y -1 一 样 大 。 对 于 
XP_product 和 XP_quotient 来 说 ，y 不 能 超过 28-1 。 


(exported functions 299)+= 
extern int XP. neg(int n, T z, T x, int carry); 


XP_neg 用 数组 z[0..n-1] 保 存 ~x+carry 并 返回 最 终 进 位 的 最 高 有 效 位 。 当 carry HOH, XP. neg 
实现 了 一 个 数 的 取 反 ; 当 carry 为 1 时 ，XP_neg 实 现 了 一 个 数 的 补 码 。 
XP_T 可 以 通过 函数 XP_cmp 进行 比较 
(exported functions)+= 
extern int XP cmpCint n, T x, T y); 
函数 会 返回 一 个 小 于 、 等 于 或 大 了 0 的 值 ， 分 别 对 应 x<y 、x=y 或 x>y 。 
XP_T 能 通过 以 下 函数 进行 移 位 操作 


(exported functions 299)+= 
extern void XP lshift(int n, Tz, int m, T x, 
int s, int fill); 
extern void XP rshift(int n, T z, int m, T x, 
int s, int fill); 
函数 将 把 左 移 或 右 移 s 位 的 x 的 值 赋 给 z ， 这 里 z 有 n 位 数字 ，x 有 m 位 数字 。 当 n 超 出 mm 时 ， 因 x 
最 高 有 效 位 的 移动 而 所 需 的 填充 值 ， 如 果 右 移 就 等 于 0 ， 如 果 左 移 就 等 于 fill 值 。 空 出 位 由 fill 
来 填充 ， 必 须 等 于 0 或 1 。 当 fill 为 0 时 ，XP_rshift 实 现 一 个 罗 辑 右 移 ， 当 fill 位 1 时 XP rshift 
能 被 用 来 实现 一 个 算术 右 移 。 


(exported functions 299)+= 
extern int XP. length (int n, T x); 
extern unsigned long XP fromint(int n, T z, 
unsigned long u); 
extern unsigned long XP.toint (int n, T x); 


XP_length 返 回 x 里 的 数字 位 个 数 ; 就 是 说 ， 它 返回 数组 x[0..n-1] 里 的 最 高 有 效 非 0 位 的 索 
引 值 加 1。XP_fromint 用 数组 z[0..n-1] 保 存 u mod 2*3£iRI]u/29^; 就 是 说 ， 返 回 不 能 存放 
在 z 里 的 u 的 位 数 。XP_toint 返 回 x mod (ULONG_MAX+1) ;就 是 说 ， 它 返回 的 是 x 里 的 
8 - sizeof(unsigned long) 的 最 低 有 效 位 。 

Fel P 的 XP 函 数 可 以 在 字符 串 和 XP_T 之 间 进 行 转换 。 


(exported functions 299)+= 
extern int XP. fromstr(int n, T z, const char *str, 
int base, char **end); 
extern char *XP tostr (char *str, int size, int base, 
int n, T x); 


XP fromstr RC Fe R BUT Büstrtoul; 它 把 str 里 的 字符 串 当 作 以 base 为 底数 的 一 个 无 符号 整数 。 
它 忽 略 引导 空白 符 ， 并 接受 以 base 为 底数 的 一 个 或 更 多 的 数字 。 对 于 11 和 36 之 间 的 底数 ， 
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XP_fromstr 把 大 写 或 小 写 的 字符 当 作 大 于 9 的 数字 。 如 果 底 数 base 小 于 2 或 者 大 于 36 ， 就 会 产 
生 可 检查 的 运行 期 错误 。 
n 位 数 的 XP_T，z， 利 用 通用 的 倍增 算法 来 累加 str 里 的 指定 整数 


for (p = str; *p is a digit; p++) 
z e base-z+ *p's value 


2 不 初始 化 为 0; 客户 必须 正确 地 初始 化 2 。XP_fromstr 返 回 base - z 乘 积 最 终 进位 的 第 一 个 非 
0 值 ， 否 则 返回 0。 因 而 ， 如 果 数 字 不 能 存放 在 数组 z 里 ,那么 XP_fromstr 就 会 返回 最 终 进 位 
的 非 0 值 。 

如 果 end 非 空 ， 出 于 可 以 扫描 到 乘法 溢出 和 是 否 为 数字 ,那么 分 配给 *end 的 指针 就 指向 
结束 XP_fromstr 解 释 执行 的 字符 。 如 果 str 里 的 字符 不 是 以 base 为 底数 的 一 个 整数 并 且 如 果 
end 非 空 ， 那 么 XP_fromstr 就 会 返回 0， 并 设置 *end 为 str。str 如 果 为 空 值 ， 就 会 产生 可 检查 
的 运行 期 错误 。 

XP_tostr 用 含 空 终止 字符 的 字符 串 来 填充 str ， 这 些 字符 串 是 以 base 为 底数 的 数字 x 的 字符 
表示 ，XP_tostr 的 返回 值 是 str 。 而 x 被 设置 为 0。 当 底数 base 超 过 10 时 ， 可 以 用 大 写字 符 来 表 
示 超 出 9 的 数字 。 如 果 底 数 base 小 于 2 或 者 大 于 36 ， 就 会 产生 可 检查 的 运行 期 错误 。 如 果 str 为 
空 、 或 者 size 太 小 ， 也 会 产生 可 检查 的 运行 期 错误 ; 就 是 说 ,如果 x 的 字符 表示 加 上 一 个 空 
符 要 求 了 大 于 size 个 字符 空间 会 产生 可 检查 的 运行 期 错误 。 


17.2 实现 


(Xp.C)= 
#include <ctype.h> 
#include «string.h» 
#include "assert.h" 
#include "xp.h" 


#define T XP_T 
#define BASE (1««8) 


(data 320) 
(functions 304) 


XP_fromint 和 XP_toint 显 示 了 这 种 类 型 的 XP 函数 必须 执行 的 算术 操作 。XP_fromint 初 始 
化 一 个 XP_T ,使 得 XP_T 等 同 于 一 个 无 符号 长 整 型 值 ; 


(functions 304)= 
unsigned long XP fromint(int n, T z, unsigned long u) ( 
int i = 0; 


do 

z[i++] = u%BASE; 
while (Cu /= BASE) > 0 && i < n); 
for ( ; i « n; i++) 
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z[i] = 0; 
return u; 


} 
u%BASE 并 不 是 严格 需要 的 ， 因 为 数组 z[ 订 的 分 配 隐 含 了 取 余 操作 。 所 有 XP 的 算术 函数 都 显 
式 地 进行 此 类 操作 ， 以 此 来 提供 它们 用 到 的 算法 的 文档 。 由 于 底数 是 2 的 固定 常数 宪 值 K 
多 数 编译 器 将 乘法 、 除 法 或 取 余 运算 转换 成 对 底数 进行 对 应 位 数 的 左 移 、 右 移 或 水 辑 与 。 
XP. toint EXP. fromint B3 Efe: 它 返 回 作为 无 符号 长 整 型 的 XP_T 的 8 - sizeof 
(unsigned long) 的 最 低 有 效 位 。 





(functions 304)+= 
unsigned long XP toint(int n, T x) { 
unsigned long u = 0; 
int i = Cint)sizeof u;. 
if CG >n) 
i=n; 
while (--1 >= 0) 
u = BASE*u + x[i]; 
return u; 


} 
当 一 个 非 0、n 位 的 XP_T 有 一 个 或 更 多 的 引导 0 时 ， 它 的 有 效 位 数 小 于 n。XP_length 返 回 
有 效 数 字 的 个 数 ， 而 不 计算 引导 0 的 个 数 。 
(functions 304)+= 


int XP. length(int n, T x) { 
while (n > 1 && x[n-1] == 0) 


return n; 


17.2.4 加 法 和 减法 
实现 加 减 的 算法 是 笔算 技术 的 系统 再 现 。 一 个 底数 为 10 的 例子 最 有 效 地 说 明了 加 法 


Z=X+Yy : 


加 法 从 最 低 有 效 位 开始 一 直 加 到 最 高 有 效 位 ， 并 且 ， 在 此 例 中 ， 进 位 的 初始 值 为 0。 每 一 步 
形成 总 和 S=carry+xity;; NS mod b， 新 的 进位 是 S/p ， 在 此 例 中 ，b 是 底数 10。 在 最 上 面 一 行 
的 小 数字 是 进位 值 。 在 最 底下 一 行 的 双 位 位 数 数值 是 $5 的 值 。 在 此 例 里 ， 最 终 进位 值 是 ! X 
是 因为 总 和 不 能 保存 成 4 位 数字 。XP_add 准 确 执行 了 此 算法 ， 并 且 返 回 了 最 后 的 进位 值 。 
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(functions 304)+= 
int XP_add(int n, Tz, T x, T y, int carry) { 

int i; 

for Ci = 0; i «n; i++) { 
carry += x[i] + y[i]; 
zli] = carry%BASE; 
carry /= BASE; 

} 


return carry; 


} 
在 每 一 次 反复 执行 加 法 的 运算 中 ,carry 暂 时 保存 了 单位 位 数 数字 总 和 $; 那么 它 也 就 正 
好 保存 了 进位 值 。 每 一 个 数字 是 0 到 b -1 之 闻 的 一 个 数 ， 并 且 进 位 值 可 以 是 0 或 1 ， 因 此 (b-1) 
+(O-1H+I=22-1=511 是 一 个 单位 位 数 数字 总 和 的 最 大 值 ， 很 容易 保存 在 一 个 整 型 中 。 
减法 ，z=x-y， 类 似 于 加 法 : 





0 1 1 
9 4 
7 


UJh2o0 
Noo 


18 06 09 16 


减法 从 最 低 有 效 位 进行 减法 一 直到 最 高 有 效 位 ， 在 此 例 里 ， 借 位 的 初始 化 值 是 9。 每 一 步 形 
成 的 差 D=xi+b -borrow-y; zi 是 D mod b， 新 的 借 位 值 是 1-D/b5。 在 最 上 面 一 行 的 小 数字 是 借 
位 值 ， 在 最 底下 一 行 的 两 位 位 数 数字 是 DD 的 值 。 
(functions 304)+= 
int XP. sub(int n, Tz, Tx, T y, int borrow) { 
int i; 
for (i20; i «n; de) { 
int d = (x[i] + BASE) - borrow - y[i]; 


z[i] = d%BASE; 
borrow = 1 - d/BASE; 


} 
return borrow; 
} 
DZ£ X (b-1) +b-0-0=2b~1=511， 可 以 保存 在 一 个 整 型 中 。 如 果 最 后 的 借 位 非 0， 那 么 x 
小 于 y。 


单位 位 数 数字 的 加 法 和 减法 比 许多 通用 函数 要 简单 一 点 ， 并 且 它 们 用 第 二 个 操作 数 作 为 
进位 或 借 位 。 
(functions 304)+= 


int XP_sum(int n, Tz, T x, int y) { 
int i; 





for (i20; i «n; i++) { 


N 
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y += x[i]; 
z[i] = y%BASE; 
y /= BASE; 
} 
return y; 
} 
int XP diff(int n, Tz, T x, int y) 1 
int i; 
for (i20; i «n; i++) { 
int d = (x[i] + BASE) - y; 
z[i] = d%BASE; 
y = 1 - d/BASE; 
} 
return y; 
} 


XP_neg 同 一 位 数字 加 法 类 似 ， 但 是 在 做 加 法 之 前 ，x 的 数字 已 被 求 补 ; 


(functions 304)+= 
int XP negCint n, T 2, T x, int carry) 1 
int i; 


for (i20; i «n; i++) { 
carry += (unsigned char)-x[i]; 
z[i] = carry%BASE; 
carry /= BASE; 

} 


return carry; 


} 
强制 类 型 转换 确保 了 ~x[i] 小 于 b。 


17.2.2 乘法 


如 果 x 有 n 位 数字 ，y 有 m 位 数字 ， 那 么 z=x + y 是 m 个 部 分 组 成 的 乘积 ， 每 一 部 分 有 n 位 数 
字 ， 这 nw 部 分 乘积 的 和 形成 了 n+m 位 乘积 结果 值 。 下 例 说 明了 当 z 的 初始 值 为 0 时 ，n=4 和 m=3 
的 乘法 过 程 : 


7 3 2 
x 9 4 2 8 
5 8 5 6 
14 6 4 
2 9 2 8 
+ 6 5 8 8 
6 9 01 29 6 


部 分 乘积 不 必 显 式 计算 ; 当 计算 乘积 里 的 各 个 数字 时 ， 每 一 部 分 乘积 值 都 加 入 到 了 z 里 。 例 
如 ， 在 第 一 个 部 分 乘积 的 数字 里 ,8 . 732， 从 最 低 有 效 位 计算 到 最 高 有 效 位 。 按 照 加 法 里 一 
般 的 进位 运算 ， 部 分 乘积 的 第 i 位 数字 加 到 了 z 的 第 ;位 数字 。 第 二 个 部 分 乘积 的 第 ;位 数字 , 
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2 .732， 被 加 到 了 z 的 第 it1 位 数字 。 总 之 ， 当 计算 涉及 x; 的 部 分 乘积 时 ， 数 字 要 加 入 到 z 中 的 
位 置 开始 于 z 的 第 i 位 。 


(functions 304)+= 
int XP. mil(T z, int n, T x, int m, Ty) { 
int i, j, Carryout = 0; 


for (i20; i <n; i++) { 
unsigned carry = O; 
for (j = 0; j <m; j++) { 
carry += x[i]*y[j] + z[i+j]; 
z[i-j] = carry%BASE; 
carry /= BASE; 


for (C; j<n+m-i; j+) { 
carry += z[i+j]; 
z[i+j] = carry%BASE; 
carry /= BASE; 


carryout |= carry; 


} 


return carryout; 
} 
当 部 分 乘积 中 的 数字 在 第 一 个 向 套 循环 里 加 入 到 了 z 上 时 ， 进 位 最 大 可 与 5_1 MARE. 因此 存 
储 在 carry 里 的 总 和 能 与 (b-1 ) (b-1)+(b-1)=b?-b=65 280 一 样 大 ， 它 被 保存 为 无 符号 数 。 在 
把 部 分 乘积 加 入 到 z 后 ,第 二 个 媒 套 循环 把 进位 加 入 到 z 中 剩余 的 数字 上 中 ， 并 记录 在 当 次 加 
法 中 形成 的 z 的 最 高 有 效 末 位 的 进位 值 。 如 果 进 位 一 直 等 于 1 ， 那 么 z+x `y 的 最 终 进位 等 于 1 。 
一 位 数字 乘法 等 同 于 调用 XP_mul, mm 等 于 1，z 初 始 化 为 0: 
(functions 304)+= 
int XP_product(int n, T z, T x, int y) { 
int i; 
unsigned carry = 0; 
for Ci = 0; i «n; i++) { 
carry += x[i]*y; 
z[i] = carry%BASE; 
carry /= BASE; 
} 


return carry; 


} 
17.2.3 除法 和 比较 


除法 是 最 复杂 的 算术 函数 。 有 若干 算法 可 以 用 来 完成 除法 设计 ， 但 每 一 种 算法 都 有 各 自 
的 优 缺 点 。 最 容易 的 算法 大 概 就 是 从 下 面 的 算术 规则 衍生 出 来 的 ， 这 些 规则 通过 计算 g=x/y 
和 r=x mod y 来 实现 。 
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ifx<ytheng-0,rex 
else 
g — x/2y, r — x mod 2y 
if r <y then g e 2g, rer else qe 2g * l,re- r-y 


当然 ， 牵 涉 到 gq' 和 的 中 间 计 算 过 程 必须 利用 XP_T 来 实现 。 

利用 递归 算法 的 问题 是 如 何 对 g' 和 xr" 进行 分 配 ， 因 lg x (以 2 为 底 的 对 数 ) 是 最 大 的 北 
归 深 度 ， 所 以 这 些 分 配 与 ]8 x 值 一 样 多 。XP 接 口 禁止 这 些 隐 式 的 分 配 。 

在 通常 情况 下 ， 当 x 兰 》 以 及 y 至 少 有 两 个 有 效 位 时 ，XP_div 采 用 了 效率 很 高 的 迭代 算 
法 ; 当 x<y 以 及 y 有 一 位 有 效 数字 时 ， 针 对 这 种 较 容易 的 情况 ，XP_div 使 用 了 一 种 更 为 简单 的 


(functions 304)+= 
int XP. div(int n, Tq, T x, int m, Ty, Tr, T tmp) 1 
int nx =n, my « m; 


n = XP length(n, x); 
m = XP. length(m, y); 
if (m = 1) { 
(single-digit division 311) 
} else if (m> n) { 
memset(q, 'NO', nx); 
memcpy(r, x, n); 
memset(r + n, 'NO', my - n); 
} else 1 
(long division 312) 


"oan 


} 


return 1; 


} 


XP_div 首 先 要 检查 一 位 数字 除法 ， 这 是 因为 要 处 理 除数 为 0 的 情况 。 

一 位 数字 除法 很 简单 ， 因 为 它 使 用 了 C 语 言 中 通用 的 无 符号 整数 除法 来 计算 商 值 。 除 法 
从 最 高 有 效 位 计算 一 直 进 行 到 最 低 有 效 位 ， 进 位 的 初始 值 是 0 。 以 10 为 底数 ，9 428 与 7 相 除 
按 以 下 步 又 所 示 。 


13 46 
7 | 09 24 32 48 6 
在 每 一 步 中 ， 部 分 被 除数 R=carry . b+x;; 商 值 g:=R/yo， 新 的 进位 是 R mod yp, 进位 值 是 
上 面 的 小 数字 。 进 位 的 最 后 值 是 余数 。 除 法 操作 由 XP_quotient 准 确实 现 ， 并 返回 余数 ， 

(functions 304)+= 

int XP. quotient(int n, Tz, T x, int y { 

int i; 

unsigned carry = 0; 


for (i =n - 1; i >= 0; i--) { 


TRH 227 





carry = carry*BASE + x[i]; 
z[i] = carry/y; 
carry %= y; 

} 


return carry; 
} 
R 一 一 XP_quotient 里 的 carry 值 
号 数值 。 
在 XP_div 里 ， 调 用 XP_quotient 会 返回 r 的 最 低 有 效 位 ， 因 此 其 余 位 必须 显 式 设置 为 0 : 
(single-digit division 311)= 
if (y[0] == 0) 
return 0; 
r[0] = XP_quotient(nx, q, x, y[0]); 
memset(r + 1, 'NO', my - 1); 
在 一 般 情 况 下 ， 当 n 宇 m 并 且 m>1 时 ， 一 个 n 位 被 除数 可 被 一 个 m 位 除数 相 除 。 以 10 为 底 
数 ，615 367 与 296 相 除 按 以 下 步骤 所 示 。 在 被 除数 的 首位 添加 0 ， 使 得 n 超 出 m。 





能 与 (b-1 ) b+(b-1)=b?-1=65 535 一 样 大 ， 存 成 一 个 无 符 





2 07 8 
296[0.61536 7 
0592 
023 3 
0000 
2 3 3 6 
2072 
2 6 4 7 
2 3 6 8 
2 7 9 


计算 每 一 个 商 值 quu AS Rm fie T, 所 以 效率 是 长 整 型 除法 的 症结 所 在 。 
假定 现在 我 们 知道 如 何 计算 商 值 ， 以 下 伪 代 码 略 述 了 长 整形 除法 的 实现 。 
rem — x with a leading zero 
for (k = n - m; k >= 0; k--) { 
compute qk 
dq — y*qk 
q-»digits[k] = qk; 
rem — rem - dq. b* 


} 
rerem 

rem 开 始 时 与 x 相 等 ， 且 首位 为 0。 通 过 用 m 位 数字 去 除 rem 的 前 m+1 位 数字 ， 且 高 位 优先 计算 ， 

循环 共 进 行 7n-m+1 次 商 值 计算 。 在 每 次 计算 结束 时 ，rem 减 去 qk 和 y 的 乘积 ,这 会 使 得 rem 

减少 一 位 。 如 上 面 的 例子 ，n=6，m=3 ， 循 环 体 执行 4 次 ,k=6-3=3 ，2，1 和 0 。 下 表 列 出 了 

在 每 一 次 计算 中 k 、rem 、qk 和 dq 的 值 。 第 二 列 的 划 线 部 分 确定 frem 的 前 级 ， 这 里 rem 与 y 相 

除 ，y 的 值 是 296 。 
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k rem qk dq 
3 0615367- 2 0592 
2 023367 0 0000 
1 23367 7 2072 
0 2647 8 2368 
279 





XP_div 需 要 空间 来 保存 两 个 临时 的 rem 和 dq; rem 需 要 n+1 位 字 
解 上 面 的 伪 代 码 后 ， 长 整 型 除法 的 代码 块 为 


(long division 312)= 
int k; 
unsigned char *rem = tmp, *dq = tmp + n+ 1; 
assert(2 <= m && m <= n); 
memcpy(rem, x, n); 


rem[n] = 0; 

for (k = n - m; k >= 0; k--) { 
int qk; 
(compute qk, dq e y-qk 314) 
q[k] = qk; 


(rem — rem - dq- p* 315) 
} 
memcpy(r, rem, m); 
(fill out q and r with 0s 313) 


ue 


"a 
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dq 需 要 m+1 位 字 节 。 


在 理 


tmp[0..n] 保 存 rem 的 n+1 位 数字 ，tmp[n+1..n+1+m] 保 存 了 dq 的 m+1 位 数字 。 在 tmp[0..k+m] 里 ， 
rem 总 是 有 k+m+1 位 数字 。 代 码 计算 了 一 个 np-m+1 位 的 商 和 一 个 m 位 的 余数 ，q 和 r 的 其 余数 


"FAS ABE ERO: 


(fill out q and r with Os 313)« 


int i; 

for (i = n-m«1; i < nx; i++) 
q[i] = 0; 

for (i = m; i < my; i++) 
r[i] = 0; 


所 有 的 余数 一 直 参 与 商 值 计算 。 有 一 个 简单 的 一 一 但 不 合适 的 一 一 方法 ， 在 开始 时 使 qk 


等 于 b-1， 并 逐渐 递减 qk ， 直 到 y - qk 超出 rem 的 m+1 位 前 缀 : 


qk = BASE-1; 

dq ~ y. ak; 

while Crem[k.k+m] < dq) 1 
gk--; 
dq — y- ak; 

} 
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此 方法 太 慢 : 循环 可 能 需要 b-1 次 反复 计算 ， 每 一 次 计算 需要 一 次 m 位 乘法 和 一 次 m+1 位 比 
较 。 一 个 更 好 的 方法 是 利用 常用 的 整数 运算 更 精确 地 估计 qk ， 当 估计 错误 时 就 纠正 qk。 三 位 

数 rem 前 绥 与 两 位 数 y 前 级 相 除 可 以 估计 出 qk 是 正确 还 是 太 大 。 因 此 ， 上 面 的 循环 可 用 单个 测 。[573 
试 来 代替 : 


(compute gk, dq e y-qk 314)= 





int i; 
assert(2 <= m && m <= k+m && kim <= n); 
(qk — y[m-2..m-1] /rem[k+m-2..k+m] 314) 
dq[m] = XP_product(m, dq, y, qk); 
for (i = m; i > 0; i--) 

if Crem[i+k] != dq[i]) 

break; 

if Crem[i+k] < dqfil) 

dq[m] = XP_product(m, dq, y, --qk); 

} 


如 上 所 示 ，XP_product 计 算 y[0..m-1] x qk ， 把 结果 赋予 dq ， 返 回 最 后 的 进位 ， 也 就 是 dq 的 
最 后 位 值 。 循 环比 较 rem[k..k+m] 和 dq， 一 次 比较 一 位 。 如 果 dq 超 出 rem 的 m+1 位 前 级， 闭 么 
qk 就 太 大 了 ， 央 此 qk 要 递减 ，dq 也 要 重新 计算 。 

用 常用 的 整数 除法 能 够 估计 gk : 


(qk + y [m-2..m-1] /rem[k«m-2..k-em] 314)= 
{ . 


int km = k + m; 
unsigned long y2 y[m-1]*BASE + y[m-2]; 
unsigned long r3 rem[km]* (BASE*BASE) + 
rem[km-1]*BASE + rem[km-2]; 
qk = r3/y2; 
if (qk >= BASE) 
qk = BASE - 1; 


} 
I3 最 大 能 与 b-Db? + (b-1)b + (b-D = b/-1216 777 215 一 样 大 ， 能 保存 在 一 个 无 符号 长 整形 
数 中 。 计 算 限 制 了 BASE 的 选取 。 一 个 无 符号 长 整形 能 够 存储 小 于 232 的 数值 ， 这 也 就 表明 
b -1<2”， 因 此 BASE 必 须 小 于 2106666， 还 不 能 超过 1 625. 。256 是 不 超过 1 625 的 2 的 最 大 宕 ， 
这 也 是 嵌入 类 型 的 尺寸。 Bi 
关于 长 整形 除法 的 最 后 一 点 迷惑 是 从 rem 的 m+1 位 前 缓 减 去 qq ， 这 会 减少 rem 并 将 其 缩短 
一 位 数字 。 从 理论 上 来 说， 通过 将 dq 左 移 k 位 数字 ， 然 后 再 从 rem 中 减 去 该 值 ， 就 可 以 实现 减 
法 。 如 上 所 示 的 XP_sub 能 够 通过 把 指针 指向 rem 里 合适 的 数字 来 完成 这 种 减法 ， 


(rem — rem - dq. b“ 315)= 


{ 





int borrow; 
assert(O <= k && k <= kim); 
borrow = XP_sub(m + 1, &rem[k], &rem[k], dq, 0); 
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assert(borrow == 0); 


} 
在 <compute qk, dq«-y -qk 314» 里 的 代码 指出 了 两 个 多 位 位 数 数字 通过 比较 它们 的 位 数 
来 完成 比较 ， 最 高 有 效 位 优先 比较 。XP_cmp 通 过 两 个 XP_T 参 数 准确 完成 了 比较 : 


(functions 304)+= 
int XP_cmpCint n, Tx, T y) { 
int i =n - 1; 
while (i > 0 && x[i] == y[i]) 
i--i 
return x[i] - y[i]; 


} 
17.2.4 Bfr 


XP 里 的 两 个 移 位 函数 实现 了 左 移 和 右 移 XP_T 指 定 的 数位 。 移 动 s 位 可 按 以 下 两 步 执行 : 
第 一 步 是 通过 一 次 转移 一 个 字 节 来 移动 8 :(s/8 ) 个 位 , 第 二 步 是 移动 其 余 的 s mod 8 位 ， 每 
次 移动 s mod 8 位 。fill 是 用 来 设置 全 为 1 或 全 为 0 的 字 节 ， 能 够 被 用 于 一 次 填充 一 个 字 节 ， 如 
下 所 示 : 


(functions 304)+= 

void XP_IshiftCint n, Tz, int m, T x, int s, int fill) { 
fill = fill ? OxFF : 0; 
(shift left by s/8 bytes 316) 
S %= 8; 
if (s > 0) 

(shift z left by s bits 317) 
H 


这 些 步骤 可 由 下 图 所 示 ， 下 图 显示 了 将 一 个 含有 44 个 “1” 的 6 位 XP_T 左 移 13 位 转变 为 8 位 
XP_T 的 过 程 ; 右边 的 浅 色 部 分 标识 空位 ， 并 设置 为 fill 值 。 











13/8 字 节 


13968 位 





左 移 s/8 字 节能 够 通过 以 下 分 配 实现 。 


z[m+(s/8)..n-1] — 0 
z[s/8.m«(s/8)-1] — x[0.m-1] 
z[0.(s/8)-1] e fill. 


95 — WS} ACHE Z PA LEAL 55/8 35 EE RE SI FO. TERK ECP , x HH BZ. us, 
最 高 有 效 位 优先 ， 第 三 次 分 配 将 z 的 s/8 最 低 有 效 位 设置 为 fill 值 。 每 一 次 分 配 涉及 一 个 循环 ， 
当 n 小 于 m 时 ， 初 始 化 代码 会 处 理 这 种 情况 : 


(shift left by s/8 bytes 316)= 
1 


inti, j2n- 1; 


if (n» m 
j=m- 1; 
else 
i =n - s/8 - 1; 
for C; j >= m+ s/8; j--) 
z[j] = 0; 
for ( ; i >= 0; i--, j--) 
z[j] = x[i]; 
for (i j >= 0; j--) 
z[j] = fill; 


} 
在 第 二 步 时 ，s 减 至 移动 位 数 。 移 位 位 数 等 价 于 z 和 2* 相 乘 ， 然 后 设置 z 的 最 低 有 效 s 位 值 为 fill : 


(shift z left by s bits 317)= 
{ 


XP. product(n, z, z, 1««s); 
z[0] |= fill>>(8-s); 
} 
fill 或 者 为 0 或 者 为 0x5FF ， 因 此 fill>>(8-s) 在 一 个 字 节 的 最 低 有 效 位 形成 了 s 个 填充 位 。 
相似 的 两 步骤 处 理 也 用 在 右 移 过 程 中 : 第 一 步 向 右 移动 8 字 节 ， 第 二 步 移动 其 余 的 8 


mod 8 位 。 


(functions 304)+= 
void XP rshift(int n, T z, int m, T x, int s, int fill) { 
fill = fill ? OxFF : 0; 
(shift right by s/8 bytes 318) 





S %= 8; 
if (s > 0) 
(shift z right by s bits 318) 
} 
把 有 44 个 “1” 的 6 位 数 XP_T 右 移 13 位 转变 为 一 个 8 位 数 XP_T， 下 图 说 明了 上 述 步 又 ; 左边 
的 浅 色 部 分 标识 空位 数 和 超出 位 ， 这 些 被 设置 成 fill 值 。 


|] 13/8 字 节 


13968 位 
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右 移 的 三 次 分 配 是 


z[0..m-(s/8)-1] € x[s/8.m-1] 
z[m-(s/8).m-1] — fil] 
z[m.n-1] — fill. 


SK SPH Hx, E HEZ us. Ms/8:E GT Aa. RARE. BOK PARE SN 
AE, ， 第 三 次 分 配 将 z 里 的 一 些 不 会 出 现在 x 里 的 数字 设置 成 fil 值 。 当 然 ， 第 二 次 和 第 三 次 
分 配 可 以 在 同一 个 循环 中 完成 : 


(shift right by s/8 bytes 318)= 





int i, j = 0; 
for Ci = s/8; i « m && j « n; i++, j++) 


z[j] = x[i}; 
for (C; j < n; j++) 
z[j] = fill; 


} 
第 二 步 把 z 右 移 s 位 ， 这 等 价 于 z 除 以 2:: 
(shift z right by s bits 318)= 
1 


XP quotient(n, z, z, 1««s); 
z[n-1] |= fill««(8-s); 


表达 式 fill<<(8-s) 在 字 节 的 最 高 有 效 位 形成 了 s 个 填充 位 ， 然 后， 些 字 节 与 z 的 最 高 有 效 字 节 
进行 或 操作 。 


17.2.5 字符 串 转 换 


最 后 的 两 个 XP 函数 把 XP_T 转 换 成 字符 串 ， 以 及 从 字符 串 转 换 成 XP_T 。XP_fromstr 转 换 
字符 串 到 XP_T; 它 接受 一 个 可 选 空白 区 域 以 及 1 位 或 多 位 数 的 底数 ,范围 是 从 2 到 包括 36 的 
整数 区 间 。 底 数 如 果 超 出 10， 可 以 用 字符 表示 超出 9 的 数字 。 当 遇 上 不 合法 的 字符 或 者 空 字 
符 时 ， 或 者 当 乘 法 中 的 最 终 进位 非 0 时 ，XP_fromstr 将 停止 打 描 字符 申 参 数 。 


(functions 304)+= 
int XP. fromstr(int n, T z, const char *str, 
int base, char ** 
const char *p = str; 


assert(p); 
assert(base »- 2 && base «- 36); 
(skip white space 320) 
if ((*p is a digit in base 320)) { 
int carry; 
for ( ; (p is a digit in base 320); p++) 1 
carry = XP. product(n, z, z, base); 
if (carry) 
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break; 
XP. sum(n, z, z, map[*p-'0']); 


} 
if (end) 

*end = (char *)p; 
return carry; 


) else 1 
if (end) 
*end = (char *)str; 
return O; 
} . 
} 


(skip white space 320)= 
while (*p && isspace(*p)) 
p++; 


go endjde?:, XP_fromstr}E* end E Ws rdc AL ARR FIT BET 。 
MRE PRES, AA mapie- 0] Ei Hos eS; (jun, map[*F’-‘0’ E15. 


(data 320)= 
static char map[] = 1 
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 
36, 36, 36, 36, 36, 36, 36, 
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 
36, 36, 36, 36, 36, 36, 
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 
针对 那些 对 应 于 ASCII 顺 序 的 0 到 z 之 间 的 少数 无 效 数字 ，map[c-'07] 等 于 36 。 如 果 map[c- ‘0’ J) 


于 base， 那 么 选择 此 类 数值 ， 可 以 使 c 成 为 以 base 为 底数 的 数字 。 央 而 ，XP_fromstr 会 按 如 下 
语句 测试 是 否 *p 是 一 个 数字 字符 : 
(*p is a digit in base 320)= 
Cp && isalnum(*p) && map[*p-'0'] < base) 
XP_tostr 利 用 通用 的 算法 来 计算 x 的 字符 串 表 示 , Jos SWRI fu. SRI He 
来 实现 ， 但 是 XP_tostr 使 用 了 XP 函数 来 完成 算法 。 


(functions 304)+= 
char *XP tostr(char *str, int size, int base, 
int n, Tx) { 


int i = 0; 
assert(str); 
assert(base >= 2 && base <= 36); 
do { 
int r = XP_quotient(n, x, x, base); 320 


assert(i « size); 
str[i++] = 


234 


} 
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"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ" [r]; 
while (n > 1 && x[n-1] == 0) 
n--7; 
} while (n > 1 || x[0] !« 0); 
assert(i « size); 
str[i] = 'N0'; 
(reverse str 321) 
return str; 


数字 以 str 逆 序 结束 ， 因 此 XP_tostr 终 止 操 作 时 ， 将 它们 逆转 。 


(reverse str 321)= 


i 
int j; 
for (j = 0; j < --i; j++) { 
char c = str[j]; 
str[j] = str[i]; 
stríi] = c; 
} 
} 
参考 书目 浅 析 


XP 中 的 大 多 数 算术 函数 直接 实现 了 我 们 每 个 人 在 小 学 就 已 经 学 过 的 运算 法 则 。 
Hennessy füPatterson ( 1994 ) 的 第 4 章 以 及 Knuth (1981) 的 4.3 节 表述 了 实现 算术 操作 的 经 
典 算法 ，Knuth (1981) 对 那些 算法 的 长 期 发 展 历史 给 予 了 精彩 的 总 结 。 


除法 的 实现 是 困难 的 ， 这 是 因为 强加 在 计算 上 的 商 值 限 制 。 用 在 XP_div 中 的 算法 来 自 





Brinch Hansen (1994 )， 其 中 有 所 估计 的 商 值 最 大 偏离 为 1 的 证 明 。Brinch Hansen 指 出 了 如 
何 通 过 缩放 操作 数 的 比例 来 避免 在 大 部 分 时 间 内 纠 I 下 gk。 缩放 要 花费 一 个 附加 的 个 位 数 乘法 
和 除法 ,但 在 必须 消减 qk 的 情况 下 ， 可 以 避免 二 次 调用 product。 


练习 


用 XP_div 采 用 的 Brinch-Hansen 算 法 来 实现 递归 除法 算法 ， 并 比较 它 的 执行 时 间 和 

空间 性 能 。 递 归 算 法 在 什么 条 件 下 更 优越 ? 

实现 Hennessy 和 Patterson ( 1994 ) 的 第 4 章 描述 的 “ 移 位 并 相 减 ” 除法 算法 ， 并 对 

它 和 用 在 XP_div 里 的 Brinch-Hansen 算 法 进行 性 能 比较 。 

大 部 分 XP 函数 花费 的 计算 时 间 与 操作 数 中 的 数字 个 数 成 比例 ， 以 底数 为 216 来 表示 

XP_T ,将 会 使 函数 的 运行 速度 快 一 倍 。 然 而 ， 对 于 除法 却 产生 了 一 个 问题， 因为 
(216-1 = 28 147 497 610 655 


超出 了 大 多 数 32 位 计算 机 的 ULONG_MAX 值 并且 标准 C 的 整数 算法 不 能 用 来 估 
计 此 方式 下 的 商 值 。 针对 这 个 问题 设计 一 个 方法 ， 用 底数 216 米 实现 XP， 并 权衡 利 
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弊 。 获 得 的 好 处 是 否 值得 增加 除法 复杂 性 ? 

用 底数 2… 完 成 练习 17.3 。 

如 果 底 数 较 大 ， 如 2“ ,那么 扩展 精度 算法 可 以 用 汇编 语言 实现 ， 因 为 许多 机 器 有 
双 精 度 指令 ,并 且 能 够 容易 地 捕获 进位 和 借 位 。 汇 编 语 言 实现 起 来 速度 很 快 。 在 
自己 钟爱 的 计算 机 上 用 汇编 语言 实现 XP ， 并 确定 速度 提高 的 程度 。 

实现 一 个 产生 随机 数 的 XP 函数 ,随机 数 要 求 均匀 地 分 布 在 指定 范围 内 。 


^r. ~ 
~ 


第 18 章 任意 精度 算法 


本 章 介绍 了 AP 接口 ， 这 个 接口 提供 任意 精度 的 有 符号 整数 及 其 相关 算法 操作 。 与 XP_T 
不 同 ，AP 提 供 的 整数 可 以 为 正 或 为 负 ， 而且 它们 可 以 是 任意 位 的 数字 。 它 们 所 能 够 表示 的 
数值 仪 受 可 用 存储 器 的 限制 。 这 些 整 数 可 用 于 需要 无 限 范围 整数 值 的 应 用 程序 。 例 如 ， 一 些 
共同 基金 公司 跟踪 股票 价格 非常 接近 于 百 分 之 一 美 分 1 美元 的 1/10 000 一 一 这 样 ， 所 有 
的 计算 可 能 都 以 百 分 之 一 美 分 为 单位 进行 。32 位 的 无 符号 整数 仪 可 表示 429,496.7295 美 元 ， 
而 这 仅仅 是 一 些 基金 所 持 有 的 数 十 亿美 元 中 极 微小 的 一 部 分 。 

当然 ，AP 使 用 了 XP， 但 是 AP 是 个 高 级 接口 : 它 仅 展现 了 一 种 表示 任意 精度 的 带 符号 整 
数 的 隐 式 类 型 。AP 会 导出 函数 以 分 配 和 释放 这 些 整 数 ， 并 在 这 些 整 数 上 执行 常用 算法 操作 。 
它 还 实现 了 XP 忽略 的 可 检查 的 运行 期 错误 。 大 多 数 应 用 程序 都 应 使 用 AP 或 下 一 章 所 介绍 的 
MP 接口 。 








18.1 接口 


AP 接 口 将 一 个 任意 精度 带 符号 整数 的 表示 隐藏 于 一 种 隐 式 指针 类 型 后 面 : 


(ap.hys 
#ifndef AP INCLUDED 
#define AP INCLUDED 
#include <stdarg.h> 


#define T AP_T 
typedef struct T *T; 


{exported functions 324) 

#undef T 

#endif 
给 这 个 接口 的 任 一 函数 传递 空 AP_T 会 产生 一 个 可 检查 的 运行 期 错误 ， 但 下 列 情况 除外 。 
下 列 函数 可 生成 AP_T: 
(exported functions 324)= 

extern T AP. new (long int n); 


extern T AP fromstr(const char *str, int base, 
char **end); 


AP_new 生 成 一 个 新 的 AP_T .并 将 其 初始 化 为 值 n ， 然 后 返回 。AP_fromstr 也 生成 一 个 


新 AP_T， 将 出 st 和 base 指 定 的 值 作 为 其 初始 值 ， 然 后 返回 。AP_new 和 AP_fromstr 可 以 引发 
Mem Failed , 
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AP_fromstr 就 像 C 库 函数 中 的 strtol; 它 把 str 里 的 字符 串 按 pase 解 释 成 一 个 整数 。 它 忽略 
前 导 空 格 ， 并 接受 一 个 可 选 符号 ， 其 后 跟随 着 一 位 或 多 位 以 base 为 底数 的 数字 。 对 于 11 和 36 
之 间 的 底数 ，AP_fromstr 用 小 写字 母 或 大 写字 母 解释 大 于 9 的 数字 。base 小 于 2 或 大 于 36 则 会 
产生 一 个 可 检查 的 运行 期 错误 。 

如 果 end 非 空 ，*end 被 赋值 为 一 个 指针 指向 终止 AP_fromstr 解 释 的 那个 字符 。 如 果 str 中 
的 字符 没有 一 个 以 base 为 底数 的 整数 ，AP_fromstr 就 返回 空 ， 而 且 ， 如 果 end 不 为 空 ， 就 把 
*end 设 置 为 str 。str 为 空 则 会 产生 一 个 可 检查 的 运行 期 错误 。 

函数 


(exported functions 324)+= 
extern long int AP toint(T x); 





extern char *AP tostr(char *str, int size, 
int base, T x); 
extern void AP fmt(int code, va list *app, 


int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision); 


提取 并 打印 AP_T 所 表示 的 整数 。AP_toint 返 回 一 个 符号 与 x 相同 、 数 值 等 于 Ix| mod 
(LONG_MAX+1) 的 长 整 型 整数 ， 这 里 LONG_MAX 是 最 大 的 止 长 整 型 整数 。 如 果 x 是 
LONG_MIN 一 一 在 二 进 制 补 码 机 器 上 是 -LONG_MAX-1 一 一 AP_toint 就 返回 -((LONG_MAX+1) 
mod (LONG MAX-«1), BIO, 

AP_tostr 用 无 终止 字符 串 填充 str， 这 个 字符 串 是 以 pase 为 底数 的 x 字 符 表 示 形 式 ， 并 返回 
str 。 大 写字 母 用 于 表示 base 超 出 10 时 那些 大 于 9 的 数字 。base 小 于 2 或 大 于 36 则 会 产生 一 个 可 
检查 的 运行 期 错误 。 

如 果 str 非 空 ，AP_tostr 将 给 str 填 充 size 数 量 的 字符 。size 太 小 就 会 产生 可 检查 的 运行 期 鲁 
R- 更 确切 地 说 ， X 的 字符 表示 加 上 一 个 空 字 符 需 要 多 于 size 的 字符 、 如 果 str 为 空 ， 就 忽略 
size; AP_tostr 将 分 配 足 够 大 的 字符 串 容纳 x 字 符 表 示 ， 并 返回 那个 字符 串 。 客 户 调 用 程序 有 
责任 释放 分 配 的 字符 串 。 如 果 str 为 空 ，AP_tostr 会 引发 Mem_Failed 。 

AP_fmt 可 与 Fmt 接 口中 的 函数 一 起 用 作 转 换 函 数 来 格式 化 AP_T。 它 用 掉 一 个 AP_T ， 并 根 
据 可 选 的 flags width 和 precision ， 按 照 与 printf 的 限定 符 %d 格 式 化 其 整数 参数 相同 的 方式 进行 
格式 化 。AP_fmt 可 以 引发 Mem_Failed 。app 或 flags 为 空 则 会 产生 一 个 可 检查 的 运行 期 错误 。 

AP THi 





(exported functions 324)+= 
extern void AP. free(T *z); 


释放 。 
AP_free 释 放 *z 的 内 容 并 将 其 设置 为 空 。z 或 *z 为 空 则 会 产生 一 个 可 检查 的 运行 期 错误 。 
下 列 函数 在 AP_T 上 执行 算法 操作 每 个 函数 都 返回 一 个 AP_T 作 为 结果 ， 而 且 每 个 都 可 
以 引发 Mem_Failed 。 
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(exported functions 324)+= 
extern T AP neg(T x); 


extern T AP.add(T x, T y); 
extern T AP sub(T x, T y); 
extern T AP mul(T x, T y); 
extern T AP. div(T x, T y); 
extern T AP mod(T x, T y); 
extern T AP pow(Tx, Ty, T p); 
AP_neg 返 回 -x; AP addjR Fix +y; AP_subi& Elx -y; AP_mulj& [lx - * y; AP_divik [n] 
x/y; AP_mod 返 回 x mod y, ，X 和 y 指 的 是 x 和 y 所 表示 的 整数 值 。 除 法 向 左 取 齐 : x 或 y 


有 有 AS ANEM EARR, & PR 因此 ， 余 数 总 为 止 。 更 为 精确 的 是 ， 商 qd 是 不 
超出 实数 w 的 最 大 整数 ，w y =x， 余 数 定义 为 x-y qs RPE MS HIE 召 的 Arith 接 
口 所 实现 的 定义 一 致 。 对 于 AP_div 和 AP_mod ， 如 果 y 为 0 则 为 可 检查 的 运行 期 错误 。 
如 果 p 为 空 AP_pow 返 回 xy; 如 果 p 非 空 ，AP_pow 则 返回 (x) mod p。 如 果 y 为 负数 ， 或 
P 非 空 且 小 于 2 ， 则 为 一 个 可 检查 的 运行 期 错误 。 
简易 函数 
(exported functions 324)+= 
extern T AP. addi(T x, long int y); 
extern T AP subi(T x, long int y); 
extern T AP muli(T x, long int y); 


extern T AP divi(T x, long int y); 
extern long AP modi(T x, long int y); 


与 上 述 函 数 类 似 ， 只 是 y 取 长 整 型 。 举 个 BI, AP_addi (x, y ) 等 价 于 AP_add (x, 
AP new (y ) )。 关 于 除法 和 取 余 的 规则 与 AP_div 和 AP_mod 相 同 。 这 些 函 数 中 每 个 都 可 以 5| 
A&Mem Failed, 
可 用 下 列 函 数 移 位 AP_T : 
(exported functions 324)+= 
extern T AP Ishift(T x, int s); 
extern T AP rshift(T x, int s); 
AP_lshift 返 回 一 个 AP_T， 其 值 等 于 x 左 移 s 位 后 的 值 ， 就 等 价 于 x 乘 以 2s。 AP_rshift 则 返回 一 
个 值 相当 于 x 右 移 s 位 的 AP_T， 等 价 于 x 除 以 2*。 这 这 两 个 函数 返回 值 的 符号 都 与 x 相 同 ， 除 非 
进行 移 位 的 值 是 0; 同时 空 出 的 位 都 设置 成 0。s 为 负 则 为 一 个 可 检查 的 运 STH Bix: Bi we 
数 还 可 以 引发 Mem_Failed 。 
AP_I 可 通过 如 下 函数 进行 比较 


(exported functions 324)+= 
extern int AP cmp (T x, T y); 
extern int AP. cmpi(T x, long int y); 


X<y 、X=y 或 X>y 时 ， 这 两 个 函数 分 别 返 回 小 于 0 , 等 于 0 或 大 于 0 的 整数 。 
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18.2 示例 : 一 个 计算 器 


这 里 用 一 个 执行 任意 精度 计算 的 计算 器 说 明 AP 接 口 的 使 月 














du 


WE XPO 的 使 用 。 
计算 器 calc 使 用 波兰 后 缀 符号 : 值 推 人 堆栈 顶端 ; 运算 符 从 栈 中 弹出 它们 的 操作 数 并 将 
结果 推 人 栈 。 值 就 是 一 个 或 多 个 相 邻 十 进 制 数 ， 运算 符 则 如 下 : 


~ 取 反 
+ 加 法 
- 减法 
/ BR 
Yo WAR 
^ RE 





复制 栈 顶 值 
打印 栈 项 值 


退出 


d 
P 
f 从 栈 项 向 下 打印 栈 中 所 有 值 
q 


; 下 一 节 介 


绍 的 AP 接口 实现 


格 字 符 用 于 分 隔 数 值 但 本 身 会 被 忽略 不 记 ; 其 他 字符 都 声明 为 未 被 识别 的 运算 符 。 堆 
栈 的 大 小 仪 受 限 于 可 用 存储 器 ， 但 是 诊断 程序 会 声明 堆栈 下 洪 。 
calc 是 个 简单 的 程序 EE 二 项 主要 的 工作 :解释 输入 、 计 算 值 及 管理 堆栈 。 


(calc.ġ= 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


<ctype.h> 
<stdio.h> 
<string.h> 
<stdlib.h> 
"stack. h" 
"ap.h" 

"fmt.h" 


(calc data 328) 
(calc functions 328) 


正如 stack.h 中 包含 的 内 容 所 表明 的 那样 ， 


(calc data 328)= 
Stack T sp; 


(initialization 328) 
sp = Stack new(); 


sp 为 空 时 calc 肯 定 不 能 调用 Stack_pop ， 内 此 它 把 所 有 的 弹出 操作 封装 在 一 个 


函数 里 : 


calc 的 堆栈 使 用 了 第 2 章 中 介绍 的 堆栈 接口 : 


TE MERE F dis D) 


241 





(calc functions 328)= 


AP.T pop(void) { 
if (IStack empty(sp)) 
return Stack pop(sp); 
else 1 
Fmt_fprint(stderr, "?stack underflowNn"); 
return AP. new(0) ; 


} 


即使 堆栈 为 空 也 总 是 返回 一 个 AP T. 
calc 中 的 主 循环 读 取 下 -一 “标志 ” 


以 简化 calc 中 上 其 "n 方 的 错 "n 查 


BS 











(calc functions 328)+= 
int main(int argc, char *argv[]) { 


int C; 


(initialization 328) 
while (Cc = getcharQ)) != EOF) 
switch (c) £1 
(cases 329) 
default: 
if Cisprint(c)) 
Fmt fprint(stderr, "?'%c'", c); 
else 
Fmt fprint(stderr, "?7'\\%030'", c); 
Fmt fprint(stderr, " is unimplemented\n"); 


break; 
} 


(clean up and exit 329) 


} 


(clean up and exit 329)= 
(clear the stack 333) 
Stack_free(&sp) ; 
return EXIT. SUCCESS; 


输入 字符 可 以 是 
人。 空格 就 被 忽略 : 


(cases 329)= 
case ' ': case 'Nt': case '\n': case '\f': case 'Nr': 


break; 
数值 以 数字 开头 ; calc 把 跟随 在 第 一 个 数字 
AP_fromstr 将 这 中 数字 转换 成 一 个 AP_T， 
(cases 3294 
case '0': case '1': case '2': case '3': case '4': 
case '5': case '6': case '7': case '8': case '9': ( 


char buf[512]; 
(gather up digits into buf 333) 


后 面 的 数字 收集 在 一 个 缓冲 区 JE RH 
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Stack. push(sp, AP. fromstr(buf, 10, NULL)); 
break; 
} 


每 个 运算 符 从 栈 中 弹出 0 个 或 多 个 操作 数 ， 并 将 0 个 或 多 个 结果 推 人 堆栈 。 加 法 非常 具有 


(cases 329)+= 
case '+': { 
(pop x and y off the stack 330) 
Stack_push(sp, AP_add(x, y)); 
(free x and y 330) 
break; 


} 


(pop x and y off the stack 330)= 
AP_T y = popO, x = popO; 


(free x and y 330)= 
AP. free(&x) ; 
AP. free(&y) ; 


很 容易 产生 这 样 的 错误 : 堆栈 中 出 现 某 个 AP_T 的 两 个 或 多 个 副本 ; 这 样 就 不 可 能 知道 应 当 
释放 哪个 AP_T。 上 面 的 代码 显示 了 避免 出 现 这 种 问题 的 一 个 简单 协议 : 堆栈 中 仅 有 那些 
“永久 ”的 AP_T; 调用 AP_free 释 放 其 他 所 有 的 AP_T。 

减法 和 乘法 在 形式 上 都 与 加 法 类 似 : 


(cases 329) 

case '-': { 
(pop x and y off the stack 330) 
Stack push(sp, AP sub(x, y)); 
(free x and y 330) 
break; 

} 

case '*': { 
(pop x and y off the stack 330) 
Stack push(sp, AP mul(x, y)); 
(free x and y 330) 
break; 


} 
除法 和 取 余 也 很 简单 ， 但 是 它们 必须 防 止 除数 为 0。 


(cases 329)+= 
case '/': { 

(pop x and y off the stack 330) 

if (AP empi(y, 0) == 0) { 
Fmt fprint(stderr, "?/ by Q\n"); 
Stack push(sp, AP. new(0)); 

} else 
Stack push(sp, AP div(x, y)); 
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(free x and y 330) 
break; 
} 
case '%': { 
(pop x and y off the stack 330) 
if (AP_cmpi(y, 0) == 0) { 
Fmt fprint(stderr, "?%% by O\n"); 
Stack push(sp, AP.new(0)); 
} else 
Stack push(sp, AP. mod(x, y)); 
(free x and y 330) 
break; 


} 
SRE it BE LER BON AR XE SI : 


(cases 329)+= 
Case 'A': { 

(pop x and y off the stack 330) 

if (AP. cmpi(y, 0) <= 0) { 
Fmt_fprint(stderr, "?nonpositive power\n"): 
Stack push(sp, AP.new(0)); 

} else 
Stack push(sp, AP pow(x, y, NULL); 

(free x and y 330) 

break; 


} 
将 栈 项 的 数值 弹出 堆栈 可 以 复制 该 值 BORE BLS EUN SE ARB RE, JO BCA MH BAR dE 
和 人 堆栈。 拷贝 AP_T 的 惟一 途径 就 是 让 它 加 0。 


(cases 329) 
case 'd': { 
AP. T x = popO; 
Stack push(sp, x); 
Stack push(sp, AP addi(x, 0)); 
break; 
j 


将 AP_cvt 与 某 一 格式 代码 相关 联 ， 并 在 传递 给 Fmt_fmt 的 格式 字符 申 中 使 用 那个 代码 , 
就 可 以 打印 AP_T ; calc 使 用 D 。 


(initialization 328)+= 
Fmt register('D', AP fmt); 


(cases 329)+= 
case 'p': { 
AP.T x = pop(); 
Fmt print("XDNn", x); 
Stack push(sp, x); 
break; 
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打印 堆栈 的 所 有 数值 暴露 出 Stack 接 口中 的 一 个 弱点 : 不 能 访问 栈 顶 元 素 下 面 的 数值 ， 
也 就 不 能 断定 堆栈 中 有 多 少数 值 。 更 好 的 堆栈 接口 可 以 包含 Table_length 和 Table_map 这 样 
的 函数 ; 没有 这 些 函 数 ，calc 就 必须 创建 一 个 临时 堆栈 把 主 堆栈 的 所 有 内 容 全 部 倒 人 临时 堆 
栈 中 ， 同 时 按 顺 序 打印 数值 ， 然 后 再 从 临时 堆栈 中 把 所 有 数值 倒 回 主 栈 。 


(cases 329) 
Case 'f': 
if (!Stack empty(sp)) f 
Stack T tmp = Stack new(Q; 
while (!Stack empty(sp)) 1 
AP T x = popd); 
Fmt print("XDXn", x); 
Stack push(tmp, x); 
} 
while (!Stack empty(tmp)) 
Stack push(sp, Stack pop(tmp)); 
Stack free(&tmp); 
H 


break; 
剩 下 的 就 是 数值 取 反 、 清 空 堆栈 并 退出 : 


(cases 329)+= 
case '~': ( 
AP T x = popO; 
Stack push(sp, AP_neg(x)); 
AP. free(&x) ; 
break; 
} 
case 'c': (clear the stack 333) break; 
case 'q': (clean up and exit 329) 
(clear the stack 333)= 
while (!Stack empty(sp)) { 
AP. T x = Stack pop(sp) ; 
AP. free(&x) ; 
H 


calc 清 除 堆栈 的 时 候 会 释放 堆 全 的 那些 AP_T 以 避免 生成 不 能 达到 且 永 远 无 法 释放 所 占 内 
存 的 对 象 。 
calc 的 最 后 部 分 代码 将 一 串 一 个 或 多 个 数字 读 人 buf; 
(gather up digits into buf 333)= 
{ 


int i = 0; 
for ( ; c != EOF && isdigit(c); c = getchar(), i++) 
if (i « Cint)sizeof (buf) - 1) 
buf[i] = c; - 
if (i > Cint)sizeof (buf) - 1) { 
i = Cint)sizeof (buf) - 1; 
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Fmt fprint(stderr, 
"?integer constant exceeds 9d digitsWn", i); 


} 
buf[i] = 0; 
if (c !- EOF) 


ungetc(c, stdin); 
} 


正如 这 段 代码 所 示 ，calc 声 明 数 字 过 长 截断 了 它们 。 


18.3 实现 


AP 接口 的 实现 前 述 了 XP 接 口 有 代表 性 的 使 用 。AP 使 用 带 符 号 数值 表示 有 符号 数 : 
AP _T 指 向 含有 这 个 数 的 符号 以 及 其 绝对 值 的 结构 XP_T。 


(ap.c)s 

#include «ctype.h» 
#include <limits.h> 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "ap.h" 
#include "fmt.h" 
#include "xp.h" 
#include "mem.h" 


#define T AP_T 


struct T ( 
int sign; 
int ndigits; 
int size; 
XP. T digits; 
H 


(macros 337) 
(prototypes 336) 
(static functions 335) 
(functions 335) 





Be 
mime 


图 18-1 Little endian 上 一 个 等 于 751,702,468,129 的 AP_T 的 小 尾数 法 布局 
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sign 为 1 或 ~1。size 是 分 配给 digits 所 指 空间 的 位 数 , 它 可 以 大 于 使 用 中 的 位 数 ndigits。 即 ， 
一 个 AP_T 用 digits[0..ndigits-1] 表 示 XP_T 给 定 的 数 。AP_T 总 是 经 过 规格 化 的 ， 它们 最 高 有 
效 数字 位 非 零 ， 除非 这 个 数值 就 是 零 。 因 而 ，ndigits 经 常 小 于 size 。 图 18-1 显 示 了 一 台 小 尾 
数 法 计算 机 上 具有 32 位 单词 和 8 位 字符 的 一 个 等 于 751 702 468 129 的 11 位 数 AP_T。 隐 藏 了 
digits 数 组 中 的 未 使 用 元 素 。 

AP_T 由 如 下 函数 进行 分 配 


(functions 335)= 
T AP. new(long int n) { 
return set(mk(sizeof (long int)), n); 
} 


该 函数 调用 静态 函数 mk 执行 实际 的 分 配 ; mk 会 分 配 一 个 能 够 容纳 size 大 小 数字 的 AP_T ， 并 
将 它 初始 化 为 0。 


(static functions 335)= 
static T mk(int size) { 

T z = CALLOC(1, sizeof (*z) + size); 
assert(size > 0); 
z->sign = 1; 
z-»size = size; 
z->ndigits = 1; 
z->digits = (XP_T)(z + 1); 
return Z; 


} 
在 带 符号 表示 法 中 ， 零 有 两 种 表示 方法 ; 通常 ，AP 只 使 用 正 数 表示 法 ， 就 像 npk 中 代码 
ABFE 
AP_new 调 用 静态 函数 set 把 AP_T 初 始 化 为 一 个 长 整 型 数值 TA, 通常 ，set 把 最 大 的 
那个 负 长 整 型 作为 一 种 特例 : 


(static functions 335)+= 
static T set(T z, long int n) { 
if (n == LONG. MIN) 
XP_fromint(z->size, z-»digits, LONG MAX + 1UL); 
else if (n « 0) 
XP_fromint(z->size, z->digits, -n); 
else 
XP_fromint(z->size, z->digits, n); 
z->sign =n< 0? -1: 1; 
return normalize(z, z~>size); 


} 


z->sign A DRA, AR MPA SHA NLR- RENAE RA, XPLTS 
没有 规格 化 的 ， 因 为 它 最 高 有 效 数 字 位 可 以 是 0。 当 AP 函数 产生 一 个 可 能 没有 规格 化 的 
XP_T 的 时 候 ， 它 调用 normalize 计 算 正 确 的 ndigits 字 段 以 进行 调整 ; 
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(static functions 335)+= 
static T normalize(T z, int n) { 
z-»ndigits = XP. length(n, z->digits); 
return z; 


j 


(prototypes 336)= 
static T normalize(T z, int n); 


通过 如 下 函数 可 以 释放 AP_T: 


(functions 335)+= 
void AP. free(T *z) { 
assert(z é& *z); 
FREE(*z); 


AF_new 是 可 以 分 配 AP_T 的 惟一 途径 ， 因 此 ， 对 于 AP_free ， 从 安全 方面 而 言 ， 应 “了 
解 ” 这 个 结构 和 数字 数组 所 占 的 空间 是 由 单个 分 配方 案 来 分 配 的 。 


18.3.1 取 反 和 乘法 


取 反 是 需要 实现 的 算法 操作 中 最 简单 的 ， 它 说 明了 带 符号 数值 表示 的 循环 问题 


(functions 335)+= 
T AP. neg(T x) { 
T 2; 


assert(x); 

Z = mk(x-»ndigits); 

memcpy(z->digits, x->digits, x->ndigits); 
z-»ndigits = x-»ndigits; 

z->sign = iszero(z) 71: -x->Sign; 
return z; 


} 
(macros 337)= 
#define iszero(x) ((x)->ndigits==1 && O0 -»digits[0]--0) 
除了 值 为 9，x 取 反 都 只 是 拷贝 数值 且 翻 转 符 号 。 宏 iszero 利 用 了 AP_T 是 规格 化 的 这 一 约束 : 
零 值 只 有 一 位 。 
xy 的 值 是 xl lyt， 而 且 它 可 能 具有 与 x 和 y 中 数字 总 数 同 样 多 的 数字 。x 和 y 符 号 相同 或 
者 x 或 y 其 一 为 零 时 结果 为 正 ， 反 之 则 为 负 。 符 号 是 - 1 或 1 ， 因此 x 和 y 符 号 相同 时 比较 
(x and y have the same sign 338)= 
((x->signAy->sign) == 0) 
WH, RZ HB. AP mulisjiXP. mult fl yA gE. 


(functions 335)+= 
T AP_mul(T x, Ty) { 
Tz; 
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assert(x); 

assert(y); 

z = mk(x-»ndigits + y->ndigits); 

XP_mul(z->digits, x->ndigits, x->digits, y->ndigits, 
y->digits); 

normalize(z, z->size); 

z->sign = iszero(z) 
|| (x and y have the same sign 338) ? 1 : -1; 

return 2; 


} 
再 次 调用 XP_mul 计 算 z=z+x. y， 而 且 mk 将 z 初 始 化 成 一 个 规格 化 的 零 和 一 个 未 格式 化 的 零 。 


18.3.2 ”加 法 和 减法 


加 法 更 复杂 一 些 ， 因 为 根据 x 与 y 的 符号 和 值 ， 加 法 可 能 还 需要 减法 。 下 表 归 纳 了 加 法 的 
各 种 情况 。 










— (Ixl+lyl) y xi 如 果 y Slxl 
—-(Ixl-y) 如 果 y< 人 xl 
x-lyl 如 果 x»lyl X+y 

- (lyl-x) 如 果 x <lyl 








如 果 x 和 y 非 负 ，Ixl+lyl 就 等 于 x+ty ， 因 此 ， 位 于 对 角 线 上 的 情况 都 可 以 通过 计算 Ixl+ly|， 
并 将 符号 设 成 的 符号 即 可 解决 。 结 果 的 位 数 可 能 比 x 和 y 中 最 长 的 那个 数 的 位 数 多 1 。 


(functions 335)+= 
T AP.add(T x, T y) { 
Tz; 


assert(x); 
assert(y); 
if (x and y have the same sign 338)) { 
z = add(mk(maxdigits(x,y) + 1), x, y); 
Z->Sign = iszero(z) ? 1: x-»sign; 
} else 
(set z to x+y when x and y have different signs 340) 
return z; 


} 
(macros 337)+= 
#define maxdigits(x,y) ((x)->ndigits > (y)-»ndigits ? X 
(x)->ndigits : (y)->ndigits) 


add 调 用 XP_add 执 行 实际 的 加 法 : 
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(static functions 335)+= 
static T add(T z, Tx, Ty) { 
int n = y-»ndigits; 


if (x-»ndigits < n) 
return add(z, y, x); 
else if (x-»ndigits > n) { 
int carry = XP add(n, z-»digits, x-»digits, 
y->digits, 0); 
z-»digits[z-»size-1] = XP. sum(x-»ndigits - n, 
&z-»digits[n], &x-»digits[n], carry); 
] else 
z-»digits[n] - XP. add(n, z-»digits, x->digits, 
y->digits, 0); 
return normalize(z, z-»size); 


} 
add 中 的 第 一 个 比较 测试 确保 x 为 较 长 的 操作 数 。 如 果 x 比 y 长 ， XP_add 计 算 z->digits[0..n 1] 
中 的 n 位 总 和 并 返回 carry 。carry 45x —digits[n..x —ndigits -1] 的 和 成 为 2->digits[n..z->size-1] 。 
如 果 x 与 y 位 数 相同 ，XP_add 就 像 前 面 那样 计算 n 位 数 总 和 ， 而 且 ， carry 就 是 z 最 高 有 效 位 。 
加 法 的 另 一 种 情况 也 可 以 简化 。x<0 y 20 Blxi»lyliif, x+y 的 值 就 是 Ix1-lyl。 符 号 为 负 。 
x 关 0、y<0 且 Ixl>lyl 时 ，x+y 的 值 也 是 Ixl-4y1， 但 是 符号 为 正 。 这 两 种 情况 结果 的 符号 都 与 x 的 
符号 相同 。 下 面 介绍 的 sub 执 行 的 是 减法 ; cmp 则 比较 lx 和 lyl。 其 结果 可 能 与 x 的 位 数 相同 。 


(set z to x+y when x and y have different signs 340)= 
if (cmpCx, y) > 0) { 
z = sub(mk(x->ndigits), x, y); 
z->sign = iszero(z) ? 1 : x-»sign; 
} 
X«0, y zO Alxi<tylay , x+y 的 值 就 是 IyI-Ixl， 符 号 为 正 ; x 20, y«0 Alxl<lytit, x+y B5 ff th, 
是 [yl-lxi1， 但 符号 为 负 。 两 种 情况 下 ,结果 的 符号 都 与 x 的 符号 相反 ， 而 且 结 果 可 能 与 y 的 位 
数 相同 。 


(set z to x+y when x and y have different signs 340)+= 





else { 
z = sub(mk(y-»ndigits), y, x); 
z->sign = iszero(z) ? 1: -x-»Sign; 
} 
减法 可 以 从 类 似 的 分 析 中 获 益 。 下 表 列 出 了 各 种 情况 。 
y<0 yz0 
x<0 ~(Ixl-lyl) 如 果 ixl > lyl —(Ixl+y) 


lyl-Ixl ” 如果 Ixi <lyl 





x20 xtlyl x-y ”如 果 x>y 
-(y-x) 如 果 X «y 
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这 里 ， 非 对 角 线 上 的 倩 况 比较 容易 处 理 。 两 者 都 可 以 通过 计算 Ixl+ly! 并 将 结果 的 符号 设 为 x 的 
符号 得 到 结果 。 


(functions 335)+= 
T AP_sub(T x, T y) { 
Tz 


assert(x); 
assert(y); 
if C!(x and y have the same sign 338)) 1 
z = add(mk(maxdigits(x,y) + 1), x, y); 
z->sign = iszero(z) ? 1 : x-»sign; 
) else 
(set z to x-y when x and y have the same sign 341) 
return Z; 


} 
对 角 线 上 的 情况 取决 于 x 和 y 的 相对 值 。Ixl>lyl 时 ，x-y 的 值 就 是 xl-4y1， 符 号 与 xX 相 同 ;， 如果 
xli «lyl, MAx-yM(AMElylixl, 44 与 x 相 反 。 
(set z to x-y when x and y have the same sign 341) 
if (cmp(x, y) > 0) { 


z = sub(mk(x->ndigits), x, y); 
z->sign = iszero(z) ? 1 : x-»sign; 


} else { 
z = sub(mk(y->ndigits), y, x); 
z->sign = iszero(z) ? 1 : -x-»sign; 
} 


与 add 一 样 ，sub 调 用 XP 函数 实现 减法 ; y 永 不 大 于 x。 


(static functions 335)+= 
static T sub(T z, Tx, Ty) { 
int borrow, n = y-»ndigits; 


borrow = XP sub(n, z-»digits, x-»digits, 
y-»digits, 0); 
if (x-»ndigits » n) 
borrow = XP. diff(x-»ndigits - n, &z-»digits[n], 
&x-»digits[n], borrow); 
assert(borrow -- 0); 
return normalize(z, z->size); 


} 


如 果 x 长 于 y， 调 用 XP_sub 计 算 z->digits[0..n-1] 并 返回 borrow . jx borrow flx —digits[n..x -> 
ndigits-1] z fa] (2&3 AZ —digits[n..x —ndigits-1], {JG borrow EO ， 因 为 所 有 sub 的 调用 中 
xl >lyl。 如 果 x 和 y 的 位 数 相 同 ，XP_sub 就 像 前 面 烤 样 计算 这 n 位 数 的 差 ， 但 是 没有 borrow 传 递 


18.3.3 ”除法 


除法 与 乘法 一 样 ， 只 是 因 截 取 规 则 而 变 得 复杂 -如 果 x 和 y 符 号 相同 ， 商 即 为 Ixi/lyl， 且 
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为 正 ， 余 数 为 Kl mod iyl; 如 果 x 和 y 符 号 相反 ， 则 商 为 负 ， 且 如 果 Ixl mod lyl A, WARE 
IxlMIy1， 如 果 Ixl mod lyl 非 零 ， 则 商 取 值 Ixylyl+l1 。 如 果 值 为 零 ,余数 就 是 Ixl mod lyl; 如 果 Ix! 
mod lyl 非 零 ， 则 余数 为 1yl-(Ixl mod lyl) 。 余数 总 为 止 。 商 和 余数 分 别 与 x 和 y 的 位 数 相 同 。 





(functions 335)+= 
T AP_div(T x, T y) { 
Tq, ri 


(qe xly, r €- x mod y 343) 
if C!(x and y have the same sign 338) && !iszero(r)) { 
int carry = XP. sum(g-»size, q-»digits, 
q-»digits, 1); 
assert(carry == 0); 
normalize(q, q->size); 
} 
AP. free(&r) ; 
return q; 
H 
(q = Xly, r e x mod y 343)= 
assert(x); 
assert(y); 
assert(!iszero(y)); 
q = mk(x->ndigits); 
r = mk(y->ndigits); 


XP_T tmp = ALLOC(x->ndigits + y->ndigits + 2); 
XP. div(x-»ndigits, q->digits, x->digits, 
y->ndigits, y->digits, r->digits, tmp); 

FREE (tmp) ; 

} 

normalize(q, q->size); 

normalize(r, r-»size); 

q->sign = iszero(q) 
|| (x and y have the same sign 338) ? 1 : -1; 


x Ally 的 符号 不 同时 ，AP_div 不 影响 余数 调整 ， 因 为 它 舍弃 了 余数 。AP_mod 则 刚好 相反 : 它 


(functions 335)+= 
T AP_mod(T x, T y) { 
Tq, r; 


(q = Xiy, re x mod y 343) 
if (!(x and y have the same sign 338) && liszero(r)) { 
int borrow = XP_sub(r->size, r->digits, 
y->digits, r->digits, 0); 
assert(borrow == 0); 
normalize(r, r->size); 


} 
AP_free(&q); 
return r; 
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18.3.4 RE 


第 三 个 参数 p 为 空 时 ，AP_pow 返 加 xy。 如 果 p 非 空 ，AP_pow 返 回 (x ) mod p, 


(functions 335)+= 
T AP_pow(T x，Ty，T p) £4 
T 2; 


assert(x); 
assert(y); 
assert(y->sign == 1); 
assert(!p || p->sign==1 && !iszero(p) && !isone(p)); 
(special cases 344) 
if Cp) 
(z — x" mod p 346) 
else 
(ze x” 345) 
return z; 


} 


(macros 337)+= 
#define isone(x) ((x)->ndigits==1 && (x)->digits[0]==1) 


为 计算 z=xY ,可 以 把 z 设 置 为 1 Hex, Ryk AE Ry 比较 大 ， 比 方 是 200 位 十 进 制 数 ， 
这 个 过 程 花 费 的 时 间 就 会 比 宇宙 存在 的 年 代 还 要 长 。 一 些 数学 规则 可 以 简化 这 个 计算 : 





oy - ESTEM 如 果 x 为 偶数 
e on = x"), 7? 如 果 x 不 为 偶数 
这 些 规 则 允许 递归 调用 AP_pow 、 结 果 相 乘 及 乘 方 米 计算 x*。 递 归 的 深度 ( 以 及 由 此 运行 的 
次 数 ) 与 lg y 成 比例 。x 或 ?为 0 或 1 时 ， 由 于 07 20, I =1、x?=1 及 x!=x ， 所 以 递归 到 达 最 低 
点 开始 返回 。 这 些 特殊 情况 中 的 前 三 种 可 以 这 样 处 理 : 


(special cases 344) 
if Ciszero(x)) 
return AP. new(0) ; 
if Ciszero(y)) 
return AP new(1); 
if (isone(x)) 
return AP. new((y is even 345) ? 1 : x->sign); 
(y is even 345)= 
(CCCy2-»digits[0]&1) == 0) 


递归 实现 了 第 四 种 特殊 情况 以 及 上 述 等 式 描述 的 两 种 情况 : 


(Z — x” 345)= 
if Cisone(y)) 
z = AP. addi (x, 0); 
else 1f 
T y2 = AP rshift(y, 1), t = AP. pow(x, y2, NULL); 
z = AP mul(t, t); 
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AP. free(&y2) ; 

AP free(&t) ; 

if (Ky is even 345) { 
z = AP_mul(x, t = z); 
AP_free(&t); 


} 
y 为 正 ， 因 此 右 移 一 位 计算 y/2。 中 间 结 果 一 一 y/2 ，x 呈 以 及 《2 ) (x2 ) 一 一 就 会 被 释放 以 
避免 产生 无 法 访问 的 存储 器 区 域 。 

P 非 空 时 ，AP_pow 计 算 x” mod P。 如 果 p>1， 实 际 上 我 们 不 能 计算 xy ， 因 为 它 可 能 太 
As 举 个 例子 ， 如 果 x 是 个 10 位 十 进 制 数 且 y 为 200， 那 么 xy 的 位 数 比 宇宙 中 的 原子 还 要 多 ; 
但 xy mod p 是 个 很 小 的 数 。 下 列 关 于 模 数 乘法 的 数学 规则 可 用 于 避免 生成 的 数 太 大 : 

(x-y) mod p = ((x mod p)- (y mod p)) mod p 

AP_mod 及 静态 函数 mulmod 共 同 实现 了 此 规则 。mulmod fi fHAP. mod &IAP. mul 3z M 
xX.y mod p， 请 注意 ， 要 释放 临时 结果 x . y。 


(static functions 335)+= 
static T mulmod(T x, Ty, T p) i 
Tz, xy = AP. mul(x, y); 
z - AP. mod(xy, p); 
AP. free(&xy) ; 
return z; 


) 
P 非 空 叶 ，AP_pow 代 码 除 了 mulmod 用 于 乘法 、p 传 递 给 递归 调用 AP_pow 以 及 y 为 奇数 时 x 则 
减 到 mod p， 几 乎 与 p 为 空 时 的 较 简 单 情况 相同 。 


(z — x" mod p 346)= 
if Cisone(y)) 
z = AP mod(x, p); 
else { 
T y2 = AP rshift(y, 1), t = AP pow(x, y2, p); 
z = mulmod(t, t, p); 
AP. free(&y2) ; 
AP. free(&t) ; 
if (Hy is even 345)) { 
z = mulmod(y2 = AP mod(x, p), t = z, p); 
AP. free(&y2) ; 
AP. free(&t) ; 


18.3.5 比较 


x 和 y 的 比较 结果 取决 于 它们 的 符号 和 数值 x<y 、x=y 或 x>y 时 ， AP_cmp 返 回 一 个 小 于 0 、 


345 
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等 于 0 或 大 于 0 的 值 。 如 果 x 与 y 符 号 不 同 ，AP_cmp 可 以 仅 返回 x 的 符号 ; 否则 ， 必 须 比 较 它 
们 的 数值 : 


(functions 335)+= 
int AP_cmp(T x, Ty) { 

assert(x); 

assert(y); 

if Cix and y have the same sign 338)) 
return x-»sign; 

else if (x->sign == 1) 

return cmp(x, y); 

else 

return cmpCy, x); 


) 


X 和 y 都 为 正 时 ， 如 果 Ixl<ly1， 则 x<y， 诸 如 此 类 。 然 而 ，x 和 y 都 为 负 时 ， 如 果 Ixl>ly1， 则 X<y， 
第 二 次 调用 cmp ， 参 数 顺 序 都 颠倒 过 来 了 。cmp 核 对 不 同 长 度 的 操作 数 之 后 ，XP_cmp 执 行 实 
际 的 比较 。 


(static functions 335)+= 
static int cmp(T x, T y) { 
if (x->ndigits != y->ndigits) 
return x-»ndigits - y-»ndigits; 
else 
return XP cmp(x-»ndigits, x->digits, y->digits); 
} 


(prototypes 3364s 
static int cmp(T x, T y); 


18.3.6 简易 函数 


这 6 个 简易 函数 把 AP_T 作 为 第 一 个 参数 ， 把 一 个 有 符号 长 整 型 作为 第 二 个 参数 。 每 个 函 
数 都 传递 给 set 个 长 整 型 来 初始 化 一 个 临时 的 AP_T ， 然 后 调用 一 些 更 常用 的 操作 。 
AP_addi 说 明了 这 种 方法 。 

(functions 335)+= 

T AP_addiCT x, long int y) { 
(declare and initialize t 347) 


return AP. add(x, set(&t, y)); 
} 


(declare and initialize t 347)= 
unsigned char d[sizeof (unsigned long)]; 
struct T t; 
t.size = sizeof d; 
t.digits = d; 


上 述 第 二 段 代码 声明 了 适当 的 局 部 变 景 ,在 栈 中 分 配 了 临时 的 AP_T 及 其 相关 的 digits 数 组 ， 
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这 是 因为 digits 数 组 的 大 小 受 限 于 无 符号 长 整 型 数 的 字 节 数 。 
其 余 四 个 简易 函数 模式 相同 : 


(functions) 

T AP.subi(T x, long int y) 1 
(declare and initialize t 347) 
return AP. sub(x, set(&t, y)); 

} 


T AP_muli(T x, long int y) { 
(declare and initialize t 347) 
return AP_mul(x, set(&t, y)); 

} 


T AP.diviCT x, long int y) { 
(declare and initialize t 347) 
return AP. div(x, set(&t, y)); 

H 


int AP.cmpi(T x, long int y) { 
(declare and initialize t 347) 
return AP. cmp(x, set(&t, y)); 
} 


AP_modi 比 较 古怪 ， 央 为 它 返回 一 个 长 整 型 ， 而 不 是 一 个 AP_T 或 整 型 ， 而 且 它 必须 放弃 
AP_mod 返 回 的 AP_T。 


(functions 335)+= 
long int AP modi(T x, long int y) { 
long int rem; 
Tr; 


(declare and initialize t 347) 

r = AP. mnod(x, set(&t, y)); 

rem = XP toint(r-»ndigits, r->digits); 
AP_free(&r); 

return rem; 


18.3.7 Bir 


两 个 移 位 函数 都 调用 它们 的 XP 相 关 函 数 移动 它们 的 操作 数 。 对 于 AP_lshift ， 结 果 比 操 
作 数 多 /8 |] 位 数 ， 且 与 操作 数 符号 相同 。 


(functions 335)+= 
T AP_1shift(T x, int s) { 
Tz; 


assert(x); 
assert(s >= 0); 
z = mk(x-»ndigits + ((s+7)&7)/8); 
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XP_lshift(z->size, z->digits, x-»ndigits, 
x-»digits, s, 0); 

z-»sign = x-»sign; 

return normalize(z, z->size); 


} 


对 于 AP_rshift ， 结 果 字 节 数 减少 [8/8j ， 而 且 可 能 结果 为 零 ， 这 种 情况 下 它 的 符号 必须 为 正 。 
T AP_rshiftcT x, int s) { 
assert(x); 
assert(s >= 0); 
if (s >= 8*x-»ndigits) 
return AP. new(0) ; 
else f 
T z = mk(x-»ndigits - s/8); 
XP. rshift(z-»size, z-»digits, x-»ndigits, 
x-»digits, s, 0); 
normalize(z, z-»size); 
z-»sign = iszero(z) ? 1 : x-»sign; 
return Z; 


} 
349| 主语 句 来 处 理 s 指 定 的 移 位 位 数 大 于 或 等 于 x 的 位 数 的 情况 。 


18.3.8 字符 串 和 整数 转换 


AP_toint (x) 返回 一 个 与 x 符 号 相同 、 值 等 于 Ixl mod (LONG_MAX+1) 的 长 整 型 。 


(functions 335)+= 
long int AP toint(T x) { 
unsigned long u; 


assert(x); 


u = XP. toint(x-»ndigits, x->digits)%C(LONG_MAX + 1UL); 
if (x->sign == -1) 

return -(long)u; 
else 


return (Clong)u; 


} 
其 他 的 AP 函数 把 AP_Ts 转 换 成 字符 串 或 把 字符 串 转 换 成 AP_T。AP_fromstr 把 一 个 字符 
串 转换 成 AP_T; 它 接收 一 个 具有 如 下 语法 的 有 符号 数 ， 
number = { white }{- | «] ( white } digit { digit } 
这 里 white 表 示 空 格 字符 ，digit 是 特定 底数 下 的 一 个 数字 字符 ， 必须 在 2 到 36 之 间 。 对 于 
超出 10 的 底数 ， 用 字母 说 明 那 些 大 于 9 的 数字 。AP_fromstr 调 用 XP_fromstr ， 而 且 遇 到 非法 
字符 或 空 字符 时 就 停止 扫描 它 的 字符 串 参 数 。 


(functions 335)+= 
T AP.fromstr(const char *str, int base, char **end) 1 
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const char *p = str; 
char *endp, sign = '\0'; 


int carry; 


assert(p); 


assert(base >= 2 && base <= 36); 
while (*p && isspace(*p)) 


per; 


if (*p == '-' || *p == '+') 


sign = *p++; 
(z e 0 351) 
carry = XP. fromstr(z-»size, z->digits, p, 
base, &endp); 

assert(carry == 0); 

normalize(z, z-»size); 

if (endp == p) { 


endp = (char *)str; 

z = AP. new(0) ; 
] else 

z-»sign = iszero(z) || sign != '-' ? 1: -1; 
if (end) 

*end = (char *)endp; 
return 2; 


} 


AP_fromstr 把 endp 的 地 址 传递 给 XP_fromstr ， 央 为 它 需 要 知道 是 什么 终止 了 扫描 ， 这 样 才能 
检查 非法 输入 。 如 果 end 非 空 ，AP_fromstr 就 把 *end 设 置 成 cndp 。 

z 中 的 位 数 是 n' lg base ， 这 里 n 是 字符 串 中 数字 个 数 ， 央 而 z 的 XP_T 必 须 有 一 个 至 少 
m=(n ' lg basey8 字 他 的 digits 数 组 。 假 设 base 是 24; m=n :lg (29/8-k - n/8。 这 样 ， 如 果 我 
们 选择 k， 使 得 2* 为 等 于 或 大 于 base 一 次 宕 的 最 小 ， 那 么 z 需 归 [k .n/8] 位 数 。k 是 对 以 base 为 
底数 的 每 个 数字 位 数 的 保守 估计 。 例 如 ，base 为 10 时 ， 每 个 数字 带 有 lg 10 —3.3242, k 54, 
base 为 2 时 ，Kk 从 1 开始 ;base 为 36 时 k 达 到 了 6 。 


(z e 0 351% 
{ 
const char 
int k, n= 
for ( ; *p 
start = p; 


*start; 
0; 
== 'O' && p[1] == '0'; p++) 


for ( ; (*p is a digit in base 352); p++) 


n++; 


for (k = 1; (1««k) < base; k++) 


Z = 


p 


mkCCCk*n + 7)&~7)/8); 


start; 
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(*p is a digit in base 352)= 

C 'O' <= *p && *p <= '9' && *p < '0' + base 
<= *p && *p <= 'z' && *p < 'a' + base - 10 
<= *p && *p <= 'Z' && *p < 'A' + base - 10) 

«z—0 351> 中 第 一 个 循环 略 过 了 前 面 的 零 . 

AP_tostr 可 以 使 用 类 似 技巧 各 近 以 字符 串 形式 表示 base 中 的 x 时 ， 所 需 的 字符 个 数 n 。x 的 
digits 数 组 中 数字 的 个 数 是 m=(n + 1g base)/8 。， 如 果 选 择 k 使 2 为 小 于 或 等 于 base 的 两 个 指数 中 
RKI. HA men + lg Q*/8-k + n/8, Hnoy[8:m/K], HTAR Ib nal EPIL, X 
E, k 向 下 低估 每 个 数字 以 base 为 底数 进行 表示 的 bit 数 ， 这 样 n 就 是 所 需 数 字 位 数 的 一 个 保守 
估计 。 例 如 ，base 为 10 时 ,x 中 每 个 数字 都 会 生成 8/lg 10= 2.41 十 进 制 数 位 ， 月 k 为 3, ， 因 此 x 
的 每 个 数字 都 分 配 了 [8/3] =3 个 十 进 制 数位 的 空间 。 base A36A KMS 开始; base 为 2 则 达到 1 。 


(size — number of characters in str 352)= 


{ 
int k; 
for (k = 5; (I««k) > base; k--) 
size = (8*x->ndigits)/k + 1 + 1; 
if (x->sign == 1) 
sizet++; 
} 


AP_tostr 计 XP_tostr 计 算 x 钠 字符 表示 ; 


(functions 335)+= 
char *AP tostr(char *str, int size, int base, T x) { 


XP Tq; 

assert(x); 

assert(base »- 2 && base «- 36); 

assert(str == NULL || size > 1); 
if (str == NULL) { 


(size e number of characters in str 352) 
str = ALLOC(size); 

} 

q = ALLOC(x->ndigits); 

memcpy(q, x->digits, x->ndigits); 


if (x->sign == -1) { 

str[0] = '-'; 

XP_tostr(str + 1, size - 1, base, x->ndigits, q); 
} else 

XP_tostr(str, size, base, x-»ndigits, q); 
FREE (q); 


return str; 


} 


最 后 一 个 AP 函数 是 AP_fmt ， 这 是 用 于 打印 AP_T 的 Fmt 样 趟 转换 函数 。 它 使 用 AP_tostr 
以 十 进 制 格式 化 数值 ， 并 调用 Fmt_putd 进行 打印 。 
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(functions 335)+= 
void AP fmt(int code, va_list *app, 
int put(int c, void *c1), void *cl, 
unsigned char flags[], int width, int precision) 1 
Tx; 
char *buf; 


assert(app && flags); 

X = va .arg(*app, T); 

assert(x); 

buf = AP tostr(NULL, 0, 10, x); 

Fmt putd(buf, strlen(buf), put, cl, flags, 
width, precision); 

FREE (buf); 


参考 书目 浅 析 


AP_T 类 仅 于 一 些 编程 语言 中 的 “大 数 " 。 例 如 ， 最 近 版 本 的 Icon 只 有 一 种 整数 类 型 ， 但 
可 以 根据 需要 ,使 用 任意 精度 的 算法 来 表示 计算 得 到 的 值 。 程 序 员 不 需要 区 分 机 器 整数 和 任 
意 精度 整数 。 

任意 精度 算法 的 工具 经 常 作 为 一 个 标准 库 或 包 提 供 。 例 如 ，LISP 系 统 有 包括 大 数 包 的 长 
整 型 ,还 有 类 似 的 ML 包 。 

大 多 数 符号 算法 系统 都 执行 任意 精度 算法 ， 因 为 那 就 是 它们 的 目的 。 例 如 ， 
Mathematica (Wolfram 1988 ) 提供 任意 长 度 的 整数 和 有 理 数 ， 且 有 理 数 的 分 子 和 分 母 都 是 
任意 精度 的 整数 。 另 一 个 符号 计算 系统 Maple V (Char etal. 1992 ) 也 有 类 似 的 工具 。 








练习 


18.1 每 次 调用 AP_div 和 AP_mod 的 时 候 ， 它们 都 会 分 配 释放 临时 空间 。 修 改 这 两 个 函 
数 。 让 它们 共享 tmp ， 只 分 配 一 次 tmp， 跟 踪 它 的 大 小 ， 并 根据 需要 进行 扩充 。 

18.2 有 一 种 与 使 用 重复 乘 方 和 相 乘 计算 z = 当 相 类 似 的 迭代 算法 (参见 Knuth 1981 的 
4.6.3 节 )，AP_pow 中 使 用 的 递归 算法 等 价 : 


Zexuel 

while y > 1 do 
if yis odd then u e u-z 
zez 
ye yl2 

Zeu-z 


J AGE TE Ee RU Re, BP EA AGE (b E EA Pd As SRA A I IZ I] 
更 少 一 些 。 使 用 这 种 算法 重新 实现 AP_pow ， 并 度量 改进 的 时 间 和 空间 。 要 明显 
地 看 出 这 个 算法 优 于 递归 算法 ，x* 和 ?必须 取 多 大 值 ? 
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实现 AP_ceil (AP T x, AP. T y) 及 AP floor (AP. T x, AP T y), 3k glx/y 的 最 
高 限度 和 最 低 限度 。 一 定 要 说 明和 y 符 号 不 同时 的 情况 。 

AP 接口 非常 “ 嘲 杂 ”一 一 有 大 量 的 参数 ， 而 且 很 容易 型 混 输 入 和 输出 参数 。 设 计 
并 实现 一 个 新 的 接口 ， 将 Seq_T 用 作 堆 栈 ， 函 数 都 从 中 取出 参数 、 存 储 结果 。 特 
别 注 意 尽 可 能 地 使 接口 整洁 ， 但 不 要 遗漏 重要 的 功能 。 

实现 一 个 AP 函数 生成 随机 数 ， 均 匀 分 布 于 特定 范围 。 

设计 一 个 接口 ， 其 功能 实现 以 任意 n 为 模 的 计算 ， 并 由 此 接收 和 返回 0 到 nn -1 之 间 
整数 集合 中 的 值 。 要 注意 除法 : 仅 当 该 集合 为 有 限 域 ， 即 n 为 素数 时 才 有 定义 。 
两 个 nm 位 数 相 乘 要 花费 的 时 间 与 2 成 比例 ( 参见 17.2.2 节 )。A.Karatsuba ( 在 1962 
年 ) 说 明了 如 何 实现 乘法 时 间 与 4 成 比例 (参见 Geddes 、Czapor 与 Labahn 
1992 的 4.3 节 以 及 Knuth 1981594.3.3 45 ), 一 个 4 位 数 x 可 以 分 成 最 高 有 效 及 最 低 有 
效 的 n/2 位 数 之 和 ; 即 x = aB”?+b， 央 此， 乘积 xy 可 以 写作 


n/2 





Xy = (aB"’* + bycB +d) = acB" +(ad+ boB”? + bd, 


需要 四 次 乘法 和 一 次 加 法 。 中 间 项 的 系数 可 以 重新 写成 : 

ad+bc = ac+bd+(a-b)(d-c). 
乘积 zy 仅 需要 三 次 乘法 (ac, bd &(a-b)(d-c) )、 两 次 减法 及 两 次 加 法 。 如 果 n 很 
大 ， 可 以 中 间 结 果 占 用 的 空间 为 代价 ， 保 存 一 个 w2 位 乘法 ， 来 减少 乘法 的 执行 时 
间 。 使 用 Karatsuba 的 算法 实现 一 个 递归 的 AP_mul ， 确 定 nm 为 何 值 时 会 明显 快 于 以 
前 那个 通用 算法 。 使 用 XP_mul 完 成 中 间 计 算 。 


第 19 章 ”多 精度 算法 


这 三 种 精度 算法 接口 的 最 后 一 种 , MP ， 导 出 了 用 于 实现 无 符号 整数 和 二 进 制 补 码 整数 
多 精度 算法 的 函数 。 与 XP 相 同 ，MP 展 现 了 它 对 于 n 位 整数 的 表示 形式 ， 且 MP 函数 处 理 的 是 
给 定 大 小 的 整数 。 与 XP 不 同 的 地 方 在 于 MP 整数 的 长 度 是 以 位 (bit ) 给 出 的 , mi AMPA A 
数 既 实现 了 带 符号 算法 也 实现 了 无 符号 算法 。 和 AP 一 样 ， MP 函数 推行 了 一 组 常用 的 可 检查 
的 运行 期 错误 。 

MP 计划 用 于 需要 扩展 精度 算法 但 想 灵活 控制 内 存 分 配 、 或 者 既 需要 无 符号 操作 又 需要 
有 符号 操作 、 抑 或 必须 模拟 二 进 制 补 码 的 n 位 数 算法 的 应 用 程序 。 范 例 包括 使 用 加 密 的 编译 
器 和 应 用 程序 。 一 些 现代 加 密 算法 涉及 到 了 数 百 位 固定 精度 整数 的 处 理 。 

一 些 编译 器 必须 使 用 多 精度 整数 。 交 叉 编 译 器 运行 在 X 平 台 并 在 ?平台 生成 代码 。 如 果 了 
的 整数 比 xX 大 ， 编 译 器 就 会 使 用 MP 处 理 了 大 小 的 整数 。 同 样 ， 编 译 器 必须 使 用 多 精度 算法 把 
浮 点 常数 转换 成 与 它们 所 指定 的 最 接近 的 浮 点 值 。 357 


19.1 接口 


MP 接口 内容 很 多 一 一 包括 49 个 函数 及 两 个 异常 一 一 因为 它 导出 了 na 位 有 符号 整数 及 无 符 
号 整数 的 一 组 完整 算法 函数 。 


(mp.h)s 
#ifndef MP. INCLUDED 
#define MP INCLUDED 
#include <stdarg.h> 
#include <stddef.h> 
#include "except.h" 


#define T MP_T 
typedef unsigned char *T; 


(exported exceptions 359) 
(exported functions 358) 


#undef T 
fendif 


与 XP 相同 , MP 表明 n 位 整数 需要 用 [2/8] 字 节 来 表示 ， 这 些 字 节 首先 存储 最 低 有 效 字 节 。 
MP 使 用 二 进 制 补 码 形式 表示 有 符号 整数 ， 第 z_1 位 是 符号 位 。 

与 XP 不 同 的 是 ，MP 函数 实现 了 常用 的 可 检查 的 运行 期 错误 ; 例如， 向 该 接口 的 任 一 范 
数 传递 空 MP_T 即 为 一 个 可 检查 的 运行 期 错误 。 但 是 ， 如 果 传 递 的 MP_T 太 小 而 不 能 容纳 n 位 


359 
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MP 自动 初始 化 以 在 32 位 整数 上 执行 算法 。 调用: 


(exported functions 358) 
extern int MP set(int n); 


修改 MP ， 这样 可 以 让 后 面 的 调用 执行 n 位 算法 。MP_set 返 回 前 面 的 大 小 。 如 果 n 小 于 2 则 为 
可 检查 的 运行 期 错误 。 一 经 初始 化 ， 大 多 数 应 用 程序 都 使 用 只 有 一 种 大 小 的 扩展 整数 。 举 个 
例子 ,交叉 编译 器 可 能 会 使 用 128 位 的 算法 处 理 常 数 。 这 种 设计 迎合 这 些 类 型 的 应 用 程序 ; 
它 简化 了 其 他 MP 毅 数 的 使 用 ， 还 简化 了 它们 的 参数 列表 。 省 略 n 就 是 一 个 非常 显而易见 的 简 
化 ， 但 是 更 重要 的 一 个 简化 是 ， 对 源 参数 和 目的 参数 都 没有 了 限制 : 相同 的 MP_T 可 以 一 直 
作为 源 和 目的 出 现 。 由 于 一 些 函 数 所 需要 的 临时 空间 仅 依赖 于 n ， 这 样 可 以 由 MP_set 一 次 分 
配 ， 因 此 消除 这 些 限制 成 为 现实 。 

这 种 设计 也 避免 了 内 存 分 配 。MP_set 可 以 引发 Mem_Failed ， 但 其 他 48 个 MP 函数 中 仅 有 
4 个 执行 内 存 分 配 。 其 中 之 一 是 


(exported functions 358)+= 
extern T MP new(unsigned long u); 


这 个 函数 分 配 一 个 适当 大 小 的 MP_T， 并 初始 化 为 ， 然 后 返回 。 


(exported functions 358)+= 
extern T MP fromint (T z, Jong v); 
extern T MP fromintu(T z, unsigned long u); 


把 z 设 置 成 v 或 u 然 后 返回 z。 如 果 n 位 数 u 或 v 不 匹配 ，MP_new 、 MP_fromint 及 MP_fromintu 就 
会 引发 


(exported exceptions 359)= 
extern const Except T MP Overflow; 


ud tH 2"-1hf, MP new£IMP fromintuzZ|/ZMP. Overflow; Vv 小 于 -2"71 或 大 于 2"-1-1 时 ， 
MP fromint5|Zz MP Overflow 。 
所 有 的 MP 函数 都 在 引发 异常 之 前 计算 它们 的 结果 。 只 不 过 是 抛弃 了 附加 位 。 例如 ， 


MP_T z; 

MP_set(8); 

z = MP. new(0) ; 

MP. fromintu(z, OxFFF); 


把 z 设 置 为 0xFF 并 引发 MP_Overflow 。 客 户 调用 程序 可 以 在 适当 的 时 候 ， 用 一 个 TRY- 
EXCEPT 语 句 忽略 这 个 异常 。 例 如 ， 


MP_T z; 
MP_set(8); 
z = MP_new(0); 
TRY 

MP_fromintu(z, OxFFF); 
EXCEPT(MP_Overflow) ; 
END_TRY; 


FREI 263 








Ez OxFFJEE FF 63x rds He Eu 
这 个 转换 并 不 适用 于 
(exported functions 358)+= 


extern unsigned long MP tointu(T x); 
extern long MP toint (T x); 


a 


这 个 函数 将 x 的 值 作 为 有 符号 长 整数 或 无 符号 长 整数 返回 。x 不 符合 返回 类 型 时 这 些 函数 ， 会 
引发 MP_Overflow ， 而 且 蜡 常 产生 时 不 能 捕 损 结果。 客户 调用 程序 可 以 使 用 





(exported functions 358)+= 
extern T MP cvt (int m, Tz, T x); 
extern T MP cvtu(Cint m, T z, T x): 


把 x 转换 成 适当 大 小 的 MP_T。MP_cvt 和 MP_cvtu 把 x 转换 成 一 个 m 位 有 符号 或 无 符号 MP_T 并 
存 于 z， 然 后 返回 z 。m 位 目的 单元 格 不 匹配 x 时 ， 这 些 函数 会 引发 MP_Overflow， 但 是 之 前 
AZ. Di 


unsigned char z[sizeof (unsigned)]; 
TRY 
MP. cvtu(8*sizeof (unsigned), z, x); 

EXCEPT(MP Overflow) ; 

END. TRY; 
把 z 设 置 成 x 的 8. sizeof(unsigned) 位 最 低 有 效 数 ， 而 不 管 x 的 大 小 。 

m 超 出 x 的 位 数 时 ，MP_cvtu 用 0 扩展 结果 ，MP_cvt 用 x 的 符号 位 扩展 结果 。m 小 于 2 即 为 一 
个 可 检查 的 运行 期 错误 ; 如 果 z 太 小 不 能 容纳 m 位 的 整数 ， 就 是 一 个 不 可 检查 的 运行 期 错误 。 

算法 函数 是 


texported functions 358)+= 





extern T MP add (Tz, Tx, T y); 
extern T MP sub (Tz, Tx, T y); 
extern T MP mil (Tz, Tx, T y); 
extern T MP div (Tz, Tx, T y); 
extern T M. md (Tz, Tx, T y); 
extern T MP. neg (T z, T x); 

extern T MP addu(T z, T x, T y); 
extern T MP subu(Tz, Tx, T y); 
extern T MP.midlu(T z, T x, T y); 
extern T MP divu(Tz, Tx, T y); 
extern T MP. modu(T z, T x, T y); 


名 字 以 n 结 束 的 那些 函数 完成 无 符号 算法 ， 其 他 完成 二 进 制 有 符号 算法 。 无 符 导 操作 与 有 符 
号 操作 的 惟一 区 别 就 是 溢出 语义 ， 下 面 将 详细 介绍 。MP_add , MP. sub, MP mul , MP div. 
MP_mod 以 及 相应 的 无 符 导 函数 分 别 计算 z = x+y, z xy、z xy z= xykRz-x mod y , 
并 返回 z。 和 斜体 表示 X 、y 及 z 的 值 .。MP_neg 把 z 设 成 x 的 负数 ， 然 后 返回 z. 如 果 xX 和 y 符 号 不 同 ， 
MP_divy 和 MP_mod 向 负 无 穷 取 整 ， 这 样 x mod y 就 总 为 正 。 


360 


264 IOS 

QU RSA RA DLA, a ae ER, f IMP divusiMP modu, #8 25] ZMP Overflow, 
x<yH{MP_subu4| ZMP Overflow; X 和 y 符 号 不 同 旦 结果 的 符号 与 x 的 符号 不 同时 MP_sub 引 
AMP Overflow, y ZJORBIMP div, MP divu, MP mod £MP modus5| 


(exported exceptions 359)+= 
extern const Except T MP Dividebyzero; 


when y is zero. 


(exported functions 358)+= 
extern T MP_mul2u(T z, Tx, T y); 
extern T MP. mul2 (Tz, Tx, T y; 
返回 双 倍 长 度 的 乘积 : 它们 都 计算 z = x * y， 因 此 z 有 2n 位 ， 然 后 返回 :。 这 样 ， 结 果 不 会 洲 
出 。z 太 小 而 不 能 容纳 2n 位 数 时 产生 一 个 不 可 检查 的 运行 期 错误 。 请 注意 ， 既 然 z 必 须 容 纳 2n 
位 ， 它 就 不 能 由 MP_new 进 行 分 配 。 
简易 函数 接收 一 个 无 符号 长 整 型 或 整 型 立即 数 作为 它们 第 二 个 操作 数 ， 


(exported functions 358\+= 


extern T MP addi (T z, T x, long y); 

extern T MP. subi (T z, T x, long y); 

extern T MP. mili (T z, T x, long y); 

extern T MP divi (T z, T x, long y); 

extern T MP addui(T z, T x, unsigned long y); 

extern T MP subui(T z, T x, unsigned long y); 

extern T MP. mului(T z, T x, unsigned long y); 

extern T MP divui(T z, T x, unsigned long y); 

extern long MP modi (T x, long y); 


extern unsigned long MP modui(T x, unsigned long y); 
当 这 些 函数 的 第 二 个 操作 数 初始 化 为 y 时 ， 就 等 价 于 它们 相应 的 更 通用 的 函数 了 ， 它 们 也 引 
发 类 似 的 异常 。 例 如 ， 


MP_T z, x; 
long y; 
MP. muli(z, x, y); 


等 价 于 


MP_T z, x; 
long y; 
{ 
MP.T t = MP. new(0) ; 
int overflow = 0; 
TRY 
MP fromint(t, y); 
EXCEPT (MP. Overflow) 
overflow = 1; 
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END. TRY; 
MP mul(z, x, t); 
if Coverflow) 
RAISE(MP. Overflow); 
l 
但 是 ， 简 易 图 数 不 进 行内 存 分 配 。 请 注意 ， 如 果 y 太 大 ， 这 些 简易 函数 ， 包 括 MP_divui 
和 MP_modui， 会 引发 MP_Overflow ， 但 是 它们 在 计算 完 z 之 后 引发 。 
(exported functions 3584s 
extern int MP cmp (Tx, T y); 
extern int MP.cmpi (T x, long y); 
extern int MP cmpu (T x, T y); 
extern int MP cmpui(T x, unsigned long y); 
比较 x 和 y， 而 且 在 x<y、x=y 或 *>y 时 依次 返回 小 于 0 、 等 于 0 或 大 于 0 的 一 个 值 。MP_cmpi 和 
MP_cmpui 并 不 一 定 要 y 匹 配 MP_T; 它们 只 是 比较 x 和 y。 
下 列 函数 把 它们 的 输入 MP_T 作 为 n 位 的 字符 串 : 
(exported functions 358)+= 
extern T MP and (Tz, Tx, T y); 
extern T MP or (Tz, Tx, T y); 
extern T MP xor (T z, Tx, T y); 
extern T MP. not (T z, T x); 
extern T MP andi(T z, T x, unsigned long y); 
extern T MP.ori (T z, T x, unsigned long y); 
extern T MP xori(T z, T x, unsigned long y); 
MP. and, MP or, 、MP_xor 及 它们 的 直接 对 应 函数 将 z 设 置 成 为 x 和 y 按 位 与 、 内 含 OR 及 排他 
OR 的 结果 并 返回 z。MP_not 把 z 设 为 5 和 二 进 制 反 码 ， 并 返回 z。 这 些 函数 从 不 引发 异常 ， 且 
简易 变量 忽略 y 太 大 时 通常 会 产生 的 溢出 。 例 如 ， 
MP_T z, x; 
unsigned long y; 
MP_andi(z, x, y); 
等 价 于 
MP_T z, x; 
unsigned long y; 
{ 


MP_T t = MP. new(0); 
TRY 

MP. fromintu(t, y); 
EXCEPT(MP Overflow) ; 
END, TRY; 
MP and(z, x, t); 
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但 是 ， 这 些 函 数 中 没有 一 个 执行 任何 内 存 分 配 。 
三 个 移 位 函数 


(exported functions 358)+= 
extern T MP Ishift(T z, T x, int s); 
extern T MP rshift(T z, T x, int s); 
extern T MP. ashift(T z, T x, int s); 


现 逻 辑 和 算术 移 位 。MP ee MP rshift f fes bz x WA Tz. XX PH 
TEBEO SGER HY 然后 返回 z。MP_ashift 跟 MP_rshift 一 样 ， 只 是 空 出 的 位 是 用 x 的 
mets. comu e aegro, 

下 列 函数 实现 MP_T 与 字符 串 之 间 的 转换 。 


(exported functions 358)+= 
extern T MP. fromstr(T z, const char *str, 
int base, char **end); 
extern char *MP tostr (char *str, int size, 
int base, T x); 
extern void MP fmt (int code, va list *app, 
int putCint c, void *c1), void *cl, 
unsigned char flags([], int width, int precision); 
extern void MP. fmtu (int code, va list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision); 


MP_fromstr 把 str 中 的 字符 串 解 释 为 一 个 以 base 为 底数 的 无 符号 整数 ， 并 将 这 个 整数 赋予 z， 
然后 返回 z。 它 忽略 前 面 的 空格 ，base 为 一 位 或 多 位 数 。 对 于 大 于 10 的 base ， 则 用 小 写字 和 母 
和 大 写字 和 母 说 明 9 以 外 的 数字 。MP_fromstr 和 strtoul 一 样 ， 如 果 end 非 空 , MP_fromstr 把 *end 
设置 为 终止 扫描 的 那个 字符 的 地 址 。 如 果 str 指 的 不 是 一 个 有 效 整数 ， 而 end 为 空 ， 
MP_fromstr 就 把 *end 设 徊 成 str， 然后 返回 空 。 如 果 str 中 的 字符 串 所 指定 的 整数 太 大， 
MP_fromstr 就 会 引发 MP_Overflow ，str 为 空 ， 或 者 base 小 于 2 或 大 于 36 都 会 产生 可 检查 的 运 
行 期 错误 。 

MP_tostr 用 一 个 以 base 为 底数 表示 x 的 非 终止 字符 中 填充 str[0..size-1] ， 并 返回 str dn 
str 为 室 ，MP_tostr 就 忽略 size， 并 分 配 必 要 的 字符 申 ; 客户 调用 程序 应 当 负责 释放 这 个 字符 
串 。 如 果 str 非 空 、size 太 小 而 不 能 容纳 这 个 非 终止 结果 、 或 者 base 小 于 2 或 大 于 36， 都 会 产生 

一 个 可 检查 的 运行 期 错误 。str 为 空 时 ，MP _tostr 会 引发 Mem_Failed , 

MP_fmt 和 MP_fmtu 是 用 于 打印 的 Fmt 样 式 转换 函数 。 这 两 个 函数 都 使 用 一 个 MP_T 及 一 
个 base ; MP_fmt 使 用 与 printf 的 %d 转 换 的 相同 规则 把 -- 个 有 符号 MP -了 转换 成 一 个 字符 中; 
MP_fmtu 使 用 printf 的 %u 转 换 规则 转换 无 符号 MP_T。 两 个 函数 都 可 以 引发 Mem_Failed , 如 
困 app 或 flags 为 空 ， 则 为 一 个 可 检查 的 运行 期 错误 。 


19.2 PB: 另 一 计算 器 
mpcalc 与 calc 一 样 ， 内 是 它 要 在 n 位 整数 上 进行 有 符号 和 无 符号 计算 。 这 个 示例 说 明 的 是 
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MP 接口 的 使 用 。 与 calc fli], mpcalef FH UC Je RUPES oT: 值 推 人 堆栈 顶端 ; 操作 符 从 
栈 中 弹出 它们 的 操作 数 并 将 结果 推 入 堆栈 。 值 足 基于 当前 输入 的 底数 的 一 个 或 多 个 相 邻 数 
字 ; 操作 符 如 下 。 











~ ”相反 数 & 与 

+ ”如 法 [o 按 位 或 

- WA ^ EX 

* RÉ < EB 

/ 除法 > Ae 

J WR ! Hu 

i We LARK o 设置 输入 底数 

k ”设置 精度 c 清空 堆栈 
d 复制 栈 顶 数值 

p ”打印 栈 项 值 

q 退出 

空格 字符 用 于 分 隔 数 值 但 本 身 会 被 忽略 不 记 ; 其 他 字符 都 声明 为 未 被 识别 的 运算 符 。 堆 


栈 的 大 小 仅 受 限于 可 用 存储 器 ， 但 是 诊断 程序 会 声明 堆栈 下 溢 。 
命令 nk， 指 定 mpcalc 处 理 的 整数 大 小 ， 其 中 n 至 少 为 2; 上 默认 为 32。 执 行 操作 符 k 时 堆栈 
必须 为 空 。 操 作答 和 o 指 定 输入 和 输出 底数 ， 默 认 情 况 下 这 两 个 底数 都 是 10。 当 输入 底数 大 
于 10 时 ， 数 值 的 前 导数 字 必 须 在 0 与 9 之 间 。 
如 果 输 出 底数 是 2>、8 或 16， 操 作 符 r+ 、=、*、/ 与 % 就 执行 无 符号 算法 ， 而 且 操 作 符 p 
和 f 打 印 无 符号 数值 。 操 作 符 ~ 总 是 执行 有 符号 算法 ， 操 作 符 让 1^ 1 < 与 > 总 是 将 它们 的 操作 
数 解释 为 无 符号 数 。 
游 出 和 零 除 数 产 生 时 mpcalc 会 进行 声明 。 对 于 溢出 ， 这 种 情况 下 的 结果 就 是 数值 中 最 低 
n 位 有 效 数 。 而 对 于 零 除 数 ， 结 果 就 是 0。 
mpcalc 的 整体 结构 很 像 calc 的 结构 : 解释 输入 、 计 算数 值 以 及 管理 堆栈 。 
(mpcalc.cys 
finclude «ctype.h» 
#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 
#include «limits.h» 
#include "mem.h" 
&include "seg.h" 


#include "fmt.h" 
#include "mp.h" 


{mpcalc data 367) 
(mpcalc functions 367) 


正如 seq.h 的 包含 文件 所 表明 的 那样 ，mpcalc 的 堆栈 使 用 了 一 个 序列 ; 
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(mpcalc data 367)= 
Seq.T sp; 


(initialization 367)= 
sp = Seq new(0); 
值 都 是 调用 Seq_addhi 压 人 堆栈 ， 再 调用 Seq_remhi 弹 出 堆栈 的 。 序 列 为 空 时 mpcalc 肯 定 不 能 
调用 Seq_remhi， 因 此 它 把 所 有 的 弹出 操作 封装 在 一 个 检查 下 滋 的 函数 中 : 
(mpcalc functions 367)= 
MP. T pop(void) { 
if (Seq length(sp) » 0) 


return Seq remhi(sp); 


else 1 
Fmt fprint(stderr, "?stack underflow\n"); 


return MP. new(0); 


} 
“jcalc jpop — £f, mpcale 的 pop 也 总 是 返回 一 个 MP_T， 即 使 堆栈 为 空 ， 因 为 这 样 简化 了 错 
误 检 查 。 
因为 要 处 理 MP 的 异常 ，mpcalc 的 主 循环 变 得 比 calc 的 主 循环 复杂 一 些 。 mpcalc 的 主 循环 
与 calc 的 主 循环 一 样 ， 都 要 读 取 下 一 数值 或 操作 符 ， 并 根据 读 取 内 容 进行 相应 操作 。 但 是 它 
还 要 为 操作 数 和 结果 建立 一 些 MP_T， 而 且 还 使 用 TRY-EXCEPT 语 句 捕捉 异常 . 





(mpcalc functions 367)+= 
int main(int argc, char *argv[]) { 
int c; 


(initialization 367) 
while ((c = getchar()) != EOF) { 
MP_T x = NULL, y = NULL, z = NULL; 
TRY 
switch (c) { 
(cases 368) 


} 
EXCEPT(MP. Overflow) 
Fnt. fprint(stderr, "?overflow\n"); 
EXCEPT (MP. Dividebyzero) 
Fmt fprint(stderr, "?divide by O\n"); 
END_TRY; 
if (z) 
Seq_addhi(sp, z); 
FREEOO ; 
FREE Cy) ; 
} 
(clean up and exit 368) 


} 


(clean up and exit 368)= 
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(clear the stack 368) 

Seq free(&sp); 

return EXIT SUCCESS; 
x Aly 用 作 操 作 数 ; z 用 作 结果 。 如 果 选 中 一 个 操作 符 之 后 x 和 y 非 空 ， 它 们 就 保存 着 从 栈 中 弹 
出 的 操作 数 ， 因 此 必须 释放 X 和 y 的 内 存 空间 。 如 果 z 非 空 ， 它 就 是 保存 着 结果 ， 这 个 结果 必 
须 压 人 堆栈 。 这 种 方法 只 允许 出 现 一 次 TRY-EXCEPT 语 句 ， 而 不 是 在 每 个 操作 符 的 代码 周 
围 都 可 以 出 现 。 


输入 字符 可 以 是 空格 、 数 值 的 首位 数字 、 一 个 操作 符 或 其 他 错误 的 输入 内 容 。 下 面 是 简 
单 的 情况 : 
(cases 368)= 
default: 
if Cisprint(c)) 
Fmt fprint(stderr, "?'%c'", c); 


else 
Fmt fprint(stderr, "?'\\%030'", c); 
Fmt fprint(stderr, " is unimplemented\n"); 
break; 
case ' ': case 'Nt': case '\n': case '\f': case 'Nr'; 
break; 


case 'c': (clear the stack 368) break; 
case 'q': (clean up and exit 368) 


(clear the stack 368)= 
while (Seq length(sp) > 0) { 
MP_T x = Seq. remhi (sp) ; 
FREEOO ; 


368 


} 


数值 都 是 从 一 个 数字 开始 ; calc 收 集 数字 并 调用 MP_fromstr 把 这 些 数字 转换 成 一 个 MP_T。 
ibase 是 当前 的 输入 底数 。 


(cases 368)= 
case '0': case '1': case '2': case '3': case '4': 
case '5': case '6': case '7': case '8': case '9': { 
char buf[512]; 
z = MP. new(0) ; 
(gather up digits into buf 369) 


MP_fromstr(z, buf, ibase, NULL); 
break; 


} 
(gather up digits into buf 369)= 
{ 


int i = 0; 
for ( ; (c is a digit in ibase 369; c = getchar(), i++) 
if (i < Cint)sizeof (buf) - 1) 
buf[i] = c; 
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if Ci > Cint)sizeof (buf) - 1) { 

7 = Cint)sizeof (buf) - 1; 

Fmt fprint(stderr, 

"?integer constant exceeds %d digits\n", i); 

H 
buf[i] = 'NO'; 
if (c != EOF) 

ungetc(c, stdin); 


} 
太 长 的 数值 将 被 声明 并 截 短 。 如 果 


(c is a digit in ibase 369)= 
strchr(&"zyxwvutsrqponmlkjihgfedcba9876543210" [36-ibase], 
tolower(c)) 


非 空 ， 字 符 就 是 个 以 ibase 为 底数 的 数字 。 
大 多 数 算法 操作 符 的 有 相同 的 形式 : 


(cases 368)+= 
case '«': (popx &y, setz 370) (*f-»add)(z, x, y); break; 
case '-': (popx &y, set z 370) (*f->sub)(z, x, y); break; 
case '*': (popx &y, set z 370) (*f->mul)(z, x, y); break; 
case '/': (popx &y, set z 370) (*f->div)(z, x, y); break; 
case '%': (popx &y, setz 370) (*f->mod)(z, x, y); break; 
case '&': (pop x &y, set z 370) MP.and(z, x, y); break; 
case '|': (pop x &y, setz 370) MP.or (z, x, y); break; 
case 'A': (pop x &y, set z 370) MP.xor(z, x, y); break; 


popO; MP.not(z, z); break; 
popO; MP. neg(z, z); break; 


case '!': z 
Ll ' 


Case ~ i Zz 


(pop x & y, set z 370)= 
y = popO; x = popO; 


z = MP. new(0) ; 
f 指 向 一 个 包含 了 函数 指针 的 结构 ， 这 些 函 数 的 操作 都 取决 于 mpcalc 是 执行 有 符号 算法 
还 是 无 符号 算法 。 


(mpcalc data 367)+= 

int ibase - 10; 

int obase - 10; 

struct ( 
char *fmt; 
MP.T (C*add)(MP T, MP. T, MP. T); 
MP_T (*sub)(MP T, MP T, MP. 7); 
MP.T (*mul)(MP T, MP. T, MP T); 
MP. T (*div) MP. T, MP. T, MP. T); 
MP_T (*mod) (MP. T, MP. T, MP. TD; 


H s = { "XDNn" ; 
MP add, MP.sub, MP mul, MP.div, MP mod }, 
u = { "“%UNn ; 


MP_addu, MP.subu, MP. mulu, MP divu, MP. modu }, 
370 *f = &s; 
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obase kf HJR. RE, RARE, Hf ms, sE TAMPA PEU E ew BK GE ET o 
操作 符 i 修 改 ibase ， 操 作 符 0 修改 obase; 这 两 个 操作 符 都 让 f 重 新 指向 u 或 者 s: 


(cases 369)+= 


tat tn! 


case 'i': case 'o': { 


X = 
n = MP_toint(x); 
if (n <2 || n» 36) 
Fmt_fprint(stderr, "?%d is an illegal base\n",n); 
else if (c == 'i') 
ibase = n; 
else 
obase = n; 
if (obase == 2 || obase == 8 || obase == 16) 
f = &u; 
else 
f = &s; 
break; 


} 
如 果 y 不 能 转换 成 一 个 长 整数 (也 就 是 说 ， 如 果 MP_toint 引 发 MP_Overflow )， 或 者 结果 整数 
不 是 一 个 合法 底数 ， 就 不 能 修改 底数 。 
s 和 u 结 构 也 有 一 个 Fmt 样 式 格式 的 字符 串 ， 用 于 打印 MP_T。mpcalc 用 %D 注 册 MP_fmt， 
FH9?5U 1E IMP, fmtu ; 


(initialization 367)+= 
Fmt_register('D', MP_fmt); 
Fmt. register('U', MP fmtu); 


这 样 ，f->fmt 访 问 适当 的 格式 字符 串 ， 操 作 符 p 和 f 用 于 打印 MP_T。 请 注意 ，p 弹 出 它 的 
操作 数 并 赋予 z 一 一 主 循环 中 的 代码 把 那个 数值 再 压 回 到 栈 顶 。 


(cases 369)+= 

case 'p': 
Fmt_print(f->fmt, z = popQ, obase); 
break; 

case 'f': { 
int n = Seq_length(sp); 
while (--n > 0) 

Fmt_print(f->fmt, Seq_get(sp, n), obase); 

break; 





} 


把 f 情 况 下 的 代码 与 18.2 节 中 的 calc 的 代码 相 比 较 。 用 Seq_T 表 示 时 ， 很 容易 打印 堆栈 的 所 有 值 。 
移 位 操作 符 防 止 不 合法 的 移 位 量 ， 并 按 顺 序 移动 它们 的 操作 数 : 
(cases 369)+= 


case '«': { (gets & z 372); MP_Ishift(z, z, s); break; } 


case '»': ( (gets &z 372); MP. rshift(z, z, S); break; ) 
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(get s & z 372) 


long s; 
y = popO; 
z = popO; 


S = MP toint(y); 
if (s «0 {| s» INT MÀ (1 
Fmt fprint(stderr, 
"2%d is an illegal shift amount\n", s); 
break; 


} 
如 果 MP_toint 引 发 MP_Overflow ， 或 者 s 为 负 或 超出 了 最 大 的 整 型 整数 ， 就 仅 将 操作 数 z 
Fe [el FEET. 
其 余 的 情况 都 关于 操作 符 k 和 d : 


(cases 369)+= 
case 'k': { 
long n; 
x = popO; 
n = MP_toint(x); 
if (n< 2 || n > INT_MAX) 
Fmt_fprint (stderr, 
"?%d is an illegal precision\n", n); 
else if (Seq length(sp) > 0) 
Fmt fprint(stderr, "?nonempty stack\n"); 


else 
MP_set(n); 
break; 


case 'd': { 
MP_T x = popO; 
z = MP_new(0); 
Seq. addhi (sp, x); 
MP addui(z, x, 0); 
break; 


} 
同样 ， 设 置 z 会 让 主 循环 中 的 代码 将 其 值 压 人 堆栈 。 


19.3 ”实现 


(mp.c)s 
#include <ctype.h> 
#include <string.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include «limits.h» 
#include "assert.h" 
#include "fmt.h" 
finclude "mem.h" 
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#include "xp.h" 
#include "mp.h" 


#define T MP.T 


(macros 374) 

(data 373) 

(static functions 389) 
(functions 374) 


(data 373)= 
const Except. T MP Dividebyzero = { "Division by zero" }; 
const Except T MP Overflow = ( "Overflow" }; 373 


XP 把 一 个 位 数 表示 成 [n18|=(n-1)/8+1 字 节 ， 最 低 有 效 字 节 居 先 (n 总 为 正 )。 下 网 说 
明了 MP 如 何 解释 这 些 字 节 。 最 低 有 效 字 节 在 右边 ， 地 址 从 右 向 左 递增 。 
(n-1/8  (n-1/8-1 1 byte 0 





FS MEn, 也 即 (x-1)/8 字 节 中 的 (xn-1) mod 8 位 。 给 定 4，MP 除 了 把 4 保存 为 
nbits ， 还 要 计算 三 个 重要 的 数值 ; nbytes 一 一 保存 n 位 所 需 的 字 节 数 ; shift 最 高 有 效 字 
节 必 须 右 移 的 位 数 ， 以 隔 开 符号 位 ; msb 一 一 shift+1 位 的 掩 码 ， 用 于 检测 溢出 。n 为 32 时 这 
些 值 是 : 

(data 373)+= 

static int nbits 32; 
static int nbytes = (32-1)/8 + 1; 


static int shift = (32-1)%8; 
static unsigned char msb - OxFF; 


如 上 所 示 ，MP 使 用 nbytes 和 shift 访 问 符号 位 ; 


(macros 374)= 
#define sign(x) (OO [nbytes-1]»»shift) 





MP. setf£ di 3x ut fij. 


(functions 374)= 
int MP. set(int n) 1 
int prev « nbits; 


assert(n » 1); 
(initialize 375) 
return prev; 


(initialize 375)= 
nbits =n; 
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nbytes = (n-1)/8 + 1; 
shift = (n-1)%8; 
msb - ones(n); 


(macros 374) 
#define ones(m) (-C-OUL««CCCm -1)%8+1))) 


将 -0 取 反 ， 左 移 (n1)%8+1 位 ， 形 成 跟随 -bD mod 8 +1 个 0 的 掩 码 ， 取 其 补 码 在 最 低 有 效 位 
中 ， 生 成 (n-1) mod 8+ 1 个 1。 如 此 定义 是 因为 除了 传递 给 MP_set 的 值 ， 这 些 1 还 用 于 n 的 其 他 值 。 

和 MP_div 一 样 ，MP_set 也 分 配 一 些 临时 空间 用 于 算法 函数 。 在 MP_set 中 只 执行 一 次 内 
存 分 配 ， 而 不 是 重复 在 算法 函数 中 执行 。MP_set 为 -- 个 2 .nbyte+2 大 小 的 临时 变量 和 一 个 
nbyte 大 小 的 临时 变量 分 配 足 够 的 空间 。 


(data 373)+= 
static unsigned char temp[16 + 16 + 16 + 2*1642]; 
static T tmp[] = {temp, temp+1*16, temp+2*16, temp+3*16}; 


(initialize 375)+= 
if (tmp[0] != temp) 
FREECtmp[0]); 
if (nbytes <= 16) 
tmp[0] = temp; 
else 
tmp[0] = ALLOC(3*nbytes + 2*nbytes + 2); 
tmp[1] = tmp[0] + 1*nbytes; 
tmp[2] = tmp[0] + 2*nbytes; 
tmp[3] = tmp[0] + 3*nbytes; 


nbytes 没 有 超过 16 或 n 不 超过 128 时 ，MP_set 可 以 使 用 静态 分 配 的 tetmp 。 和 否则 ， 它 必须 为 临时 恋 

量 分 配 足 够 的 空间 。temp 是 必需 的 ， 央 为 MP 必须 初始 化 ， 就 好 像 已 经 执行 过 了 MP_set (32 de 

K & SMP eR Bal FX P A BOT nbyte Sog RAE, IR SG RE HR Bp 出 nbits 位 。 
MP_new 和 MP_ fromintu JE 了 这 个 方案 。 


(functions 374)+= 
T MP. new(unsigned long u) { 
return MP. fromintu(ALLOC(nbytes), u); 
H 


T MP_fromintu(T z, unsigned long u) { 
unsigned long carry; 


assert(2); 

(set Z tou 376) 

(test for unsigned overflow 376) 
return 2; 


) 


(set z to u 376)= 
carry = XP fromint(nbytes, z, u); 


carry |= z[nbytes-1]&-msb; 

z[nbytes-1] &= msb; 
如 果 XP_fromint 返 回 非 零 的 carry , nbytes dE Fu; 如果 carry 为 零 ，nbytes 就 能 装 下 。 但 
是 u 可 能 无 法 匹配 nbits 位 。MP_fromintu 必 须 确保 z 的 最 高 有 效 字 节 中 的 8- (shift+1) 位 最 低 有 
效 位 都 是 9。MP_set 已 经 为 msb 做 了 准备 以 容纳 有 shift+1 个 1 的 掩 码 , 因此 ~msb 将 那些 在 合 
FP HT carry 进行 OR 运 算 的 期 望 位 隔离 开 。 无 符号 溢出 测试 仪 仅 检 测 carry : 


(test for unsigned overflow 376)= 
if (carry) 
RAISE(MP. Overflow); 


请 注意 ，MP_fromintu 在 检测 溢出 之 前 设置 ;， 正 如 这 个 接口 所 指定 的 ， 所 有 MP 函数 必 
须 在 引发 异常 之 前 设置 它们 的 结果 。 
检测 有 符号 溢出 更 加 复杂 一 点 ， 因 为 它 还 依赖 涉及 到 的 操作 。MP_fromint 介 绍 了 一 个 简 
单 情况 。 
(functions 374)+= 
T MP fromint(T z, long v) { 
assert(z); 
(set z to v 377) 
if (v is too big 377)) 
RAISE(MP. Overflow); 


return z; 


} 
首先 ，MP_fromint 把 z 初 始 化 成 v 的 值 ， 注 意 仅 向 XP_fromint fi ER: 


(set z to v 377)= 

if (v == LONG. MIN) { 
XP. fromint(nbytes, z, LONG MAX « 1UL); 
XP_neg(nbytes, z, z, 1); 

) else if (v <0) { . 
XP_fromint(nbytes, z, -v); 
XP. neg(nbytes, z, z, 1): 

) else 
XP. fromint(nbytes, z, v); 

z[nbytes-1] &= msb; 


前 两 个 站 语句 处 理 负 数 : z 设 置 为 v 的 绝对 值 ， 然 后 将 1 作为 第 四 个 参数 传递 给 XP_neg ， 将 z 设 
成 它 的 二 进 制 补 码 。MP_fromint 必须 专门 处 理 值 最 小 的 那个 整数 ， 央 为 它 不 能 取 反 。 如 果 v 
为 负 ，z 的 最 高 有 效 位 将 足 1 ， 而 且 必须 含 弈 额外 的 位 。 许 多 MP 函数 都 习惯 使 用 上 面 显 示 的 
z[nbytes-1] &=msb 语 句 舍弃 z 中 超出 最 高 有 效 字 节 的 那些 位 。 

对 于 MP_fromint ，nbits 小 于 长 整数 的 位 数 旦 v 超 出 了 z 的 范围 时 ， 会 产生 有 符号 溢出 。 

(v is too big 377) 


(nbits < 8*(int)sizeof (v) && 
(v < -(L««(nbits-1)) || v >= (1L««(nbits-)))) 
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这 两 个 移 位 表达 式 计 算 最 小 及 最 大 的 n 位 长 有 符号 整数 。 
19.3.1 转换 


35 MP_toint 和 MP_cvt 介 绍 了 检查 有 符号 溢出 的 另 一 情况 : 


(functions 374)4 
Tong MP. toint(T x) { 
unsigned char d[sizeof (unsigned long)]; 


assert(x); 

MP_cvt(8*sizeof d, d, x); 

return XP_toint(sizeof d, d); 
} 


如 果 d 不 能 容纳 x ，MP_cvt 就 会 产生 MP_Overflow ; 如 果 d 可 以 容纳 x , XP. tointj& E 3128 (A. 
MP_cvt 完 成 两 种 转换 : 把 一 个 MP_T 转 换 成 位 数 稍 多 或 稍 少 的 男 一 个 MP_T。 


(functions 374)+= 
T MP cvt(int m, Tz, Tx) { 
int fill, i, mbytes = (m - 1)/8 +1; 


assert(m » 1); 
(checked runtime errors for unary functions 378) 
fill = sign(x) ? OxFF : 0; 
if (m « nbits) { 
(narrow signed x 379) 
) else 1 
(widen signed x 379) 
} 
return z; 


} 


(checked runtime errors for unary functions 378)= 
assert(x); assert(z); 


如 果 m 小 于 nbits ，MP_cvt 就 “缩小 ”x 的 值 并 将 其 赋予 z。 这 种 情况 必须 检查 有 符号 溢出 。 如 

末 x 中 m 位 到 nbits-1 位 都 是 0 或 都 是 1， 也 就 是 说 ， 如 果 将 x 作为 一 个 m 位 整数 处 理 的 时 候 ,，Xx 

中 超出 的 位 都 等 于 x 的 符号 位 ,，m 位 就 适合 x。 下 面 的 程序 块 中 ， 如 果 x 为 负 或 零 ， 则 fill 为 FF 
[378] 因此 如 果 人 ix[m..nbits-1] 都 是 1 或 都 是 0 , x [i]^fill Bg 590 。 


(narrow signed x 379)= 
int carry = (x[mbytes-1]^fill)&-ones (m); 
for (i = mbytes; i « nbytes; i++) 
carry |= x[iJAfill; 
memcpy(z, x, mbytes); 
z[mbytes-1] & ones(m); 
if (carry) 
RAISE(MP. Overflow); 


如 果 x 处 于 范围 内 ，carry 将 为 0; 否则 ，carry 的 一 些 位 将 为 1。 carry 的 初始 值 忽 略 了 将 成 为 z 
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的 部 分 非 符 号 位 的 那些 位 。 
如 果 m 至少 为 nbits ，MP_cvt“ 扩 大 ”x 的 值 并 将 它 赋 子 z。 这 种 情况 不 会 产生 游 出 ,但 是 
MP_cvt 必 须 传 递 由 fill 给 出 的 x 符号 位 。 


(widen signed x 379)= 
memcpy(z, x, nbytes); 
z[nbytes-1] [= fill&-msb; 
for (i = nbytes; i « mbytes; i++) 
z[i] = fill; 
z[mbytes-1] &- ones(m); 


MP_tointu 使 用 了 类 似 的 方法 : 它 调 用 MP_cvtu 把 x 转换 成 一 个 具有 无 符号 长 整 型 整数 位 
数 的 MP_T ， 然 后 调用 XP_toint 返 回 这 个 值 ，, 


(functions 374)+= 
unsigned long MP. tointu(T x) { 
unsigned char d[sizeof (unsigned 1ong)1; 


assert(x); 
MP cvtu(8*sizeof d, d, x); 
return XP. toint(sizeof d, d); 


} 
同样 ，MP_cvtu 缩 小 或 者 扩大 x 的 值 ， 并 将 其 赋予 z 。 


(functions 374)+= 
T MP cvtuCint m, Tz, T x) { 
int i, mbytes = (m - 1)/8 + 1; 


assert(m » 1); 
(checked runtime errors for unary functions 378) 
if (m « nbits) { 
(narrow unsigned x 380) 
] else { 
(widen unsigned x 380) 


} 
return z; 
} 
mm 小 于 nbits 时 ， 如 果 x 中 m 到 nbits-1 位 中 的 任 一 位 为 1 则 产生 溢出 ， 这 是 由 与 MP_cvt 中 代码 类 
似 、 但 相 比 起 来 更 简单 一 些 的 代码 进行 校 验 检查 的 。 


(narrow unsigned x 380)= 
int carry = x[mbytes-1]&-ones (m); 
for (i = mbytes; i « nbytes; i++) 
carry |= x[i]; 
memcpy(z, x, mbytes); 
z[mbytes-1] &- ones(m): 
(test for unsigned overflow 376) 


m 大 于 等 于 nbits 时 不 会 产生 溢出 ， 而 且 z 中 超出 的 位 将 设置 为 0: 
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(widen unsigned x 380)= 
memcpy(z, x, nbytes); 
for (i = nbytes; i « mbytes; i++) 
z[i] = 0; 


193.2 无 符号 算法 


正如 代码 MP_cvtu 和 MP_cvt 所 表明 的 ,无 符号 算法 两 数 比 相应 的 有 符号 函数 要 更 容易 实 
t, 因为 它们 不 需要 处 理 符号 ， 而 且 洲 出 检测 也 更 简单 。 无 符号 加 法 说 明了 一 种 简单 情况 ; 
XP_add 完 成 了 所 有 的 工作 。 


(functions 374)+= 
T MP. addu (T Z, T X, T y) " 
int carry; 


(checked runtime errors for binary functions 381) 
carry = XP add(nbytes, z, x, y, 0); 
carry |= z[nbytes-1]&-msb; 

z[nbytes-1] &- msb; 

(test for unsigned overflow 376) 

return z; 


} 


(checked runtime errors for binary functions 381)« 
assert(x); assert(y); assert(z); 


减法 也 一 样 的 容易 ， 但 是 存在 未 处 理 的 borrow 时 会 引发 MP_Overflow: 


(functions 374)+= 
TMPsubu(Tz, Tx, Ty) ( 
int borrow; 


(checked runtime errors for binary functions 381) 
borrow = XP. sub(nbytes, z, x, y, 0); 
borrow |= z[nbytes-1]&-msb; 

z[nbytes-1] &- msb; 

(test for unsigned underflow 381) 

return z; 


} 


(test for unsigned underflow 381)= 
if (borrow) 
RAISE(MP. Overflow); 


MP_mul2u 足 最 简单 的 乘法 函数 ， 内 为 不 会 产生 溢出 。 


(functions 374)+= 
TMPmul2u(Tz, Tx, Ty) {í 
(checked runtime errors for binary functions 381) 
381 memset(tmp[3], '\O', 2*nbytes); 
XP mul(tmp[3], nbytes, x, nbytes, y); 
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memcpy(z, tmp[3], (2*nbits - 1)/8 + 1); 
return Z; 


} 
MP_mul2u 计 算 结 果 将 其 值 赋予 tmp[3]， 并 把 tmp[3] 复 制 到 z， 这 样 x 或 y 都 可 以 用 作 z。 如 果 
MP_mul2u 将 计算 的 结果 直接 赋予 z， 这 样 就 不 起 作用 了 . 在 MP_set 中 分 配 临 时 空间 不 仅 将 
分 配 隔离 开 来 ， 也 避免 [x 与 y 的 限制 。 
MP._mul 也 调用 XP_mul 计 算 tmp[3] 中 的 双 倍 长 度 结果 ， 然 后 把 那个 结果 缩小 成 nbits FF 
赋予 Zz。 


(functions 374)+= 
T MP_ mulu(T z, Tx, Ty) { 

(checked runtime errors for binary functions 381) 
memset(tmp[3], 'NO', 2*nbytes); 
XP_mul(tmp[3], nbytes, x, nbytes, y); 
memcpy(z, tmp[3], nbytes); 
z[nbytes-1] &- msb; 
(test for unsigned multiplication overflow 382) 
return z; 




















} 
如 果 tmp[3] 中 的 nbits 到 2 nbits-1 位 是 1 乘积 就 会 溢出 。 采 用 检测 MP_cvtu 中 类 似 条 件 的 方法 
就 可 以 检测 这 种 情况 : 
(test for unsigned multiplication overflow 382)= 


int i; 
if (tmp[3] (nbytes-1]&-msb) 
RAISE(MP. Overflow); 
for (i = 0; i < nbytes; i++) 
if (tmp[3][i«nbytes] != 0) 
RAISECMP Overflow); 
} 


MP_divu 将 y 复 制 到 临时 空间 ， 从 而 避免 【XP_div 对 其 参数 的 限制 : 


(functions 374)+= 
T MP_divu(T z, T x, Ty) { 
(checked runtime errors for binary functions 381) 
(copy y to a temporary 383) 
if (XP div(nbytes, z, x, nbytes, y, tmp[2], tmp[3})) 
RAISE (MP_Dividebyzero) ; 
return Z; 


} 
(copy y to a temporary 383)= 


memcpy(tmp[1], y, nbytes); 
y = tmp[1]; 
] 


tmp[2] ti (£8 FAY Zt; tmp[1] 保 存 y， 且 y 重 新 指向 tmp[1] 。tmp[3] 是 XP_div 所 需 的 
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2 - nbyte +2 位 临时 空间 。MP_modu 非 常 相似 ， 只 是 它 用 tmp[2] 保 存 商 值 : 


(functions 374)+= 
TMPmodu(Tz, Tx, Ty) { 
{checked runtime errors for binary functions 381) 
(copy y to a temporary 383) 
if (!XP. div(nbytes, tmp[2], x, nbytes, y, z, tmp[3])) 
RAISE(MP. Dividebyzero); 
return z; 


} 
19.8.8 有 符号 算法 


AP 的 有 符号 数值 表示 使 AP_add 必 须 考虑 x 和 y 的 符号 。 二 进 制 补 码 表示 法 的 特性 允许 
ME_add 避 免 这 种 分 析 ， 而 且 仅仅 调 用 XP_add 而 不 管 5 和 y 的 符号 Pam, ， 有 符号 加 法 几乎 与 
无 符号 加 法 一 样 ， 惟 一 的 重要 区 别 就 是 溢出 的 检测 。 


(functions 374)+= 
TMPadd(Tz, Tx, T y){ 

int sx, sy; 
(checked runtime errors for binary functions 381) 
SX = sign(x); 
sy = sign(y); 
XP. add(nbytes, z, x, y, 0); 
z[nbytes-1] &- msb; 
(test for signed overflow 384) 
return z; 


} 
加 法 中 x 和 y 符 号 相同 时 产生 溢出 。 当 和 洲 出 时 ， 它 的 符号 不 同 于 x 和 y 的 符号 : 


(test for signed overflow 384)= 
if (sx == sy && sy !- sign(z)) 
RAISE(MP. Overflow); 


有 符号 减法 与 加 法 形式 相同 ， 但 是 溢出 的 检测 不 同 。 
(functions 374)+= 


T MP_sub(T z, Tx, Ty) { 
int sx, sy; 


(checked runtime errors for binary functions 381) 
SX = sign(x); 

Sy = sign(y); 

XP_sub(nbytes, z, x, y, 0); 

z[nbytes-1] &- msb; 

(test for signed underflow 384) 

return z; 


} 
对 于 减法 , x 和 y 的 符号 不 同时 发 生 溢出 。x 为 正 且 y 为 负 时 ， 结 果 应 为 正 ; X 为 负 且 y 为 正 时 ， 
结果 应 为 负 。 因此 ,x 和 y 符 号 不 同时 ， 结 果 与 y 符 号 相同 ， 产 生 下 溢 。 
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(test for signed underflow 384)= 
if (sx t= sy && sy == sign(z)) 
RAISE(MP. Overflow); 


x Jut 5C ET PO EX. DUX f I7 Ad 


(functions 374) 
T MP. neg(CT z, T x) { 
int sx; 





， 而 且 结 果 溢 出 时 仍旧 为 负 。 





(checked runtime errors for unary functions 378) 


sx = sign(x); 

XP_neg(nbytes, z, x, 1); 

z[nbytes-1] &- msb; 

if (sx && sx == sign(z)) 
RAISE(MP. Overflow); 

return z; 


} 


MP_neg 必 须 清除 z 最 高 有 效 字 节 中 超出 的 那些 位 ， 因 为 x 为 正 时 ， 它 们 都 是 1 


实现 有 符号 乘法 的 最 简单 方法 是 将 负 操 作 数 取 反 ,执行 一 个 无 符号 乘法 ,操作 数 符号 不 
同时 再 将 结果 取 反 。 对 于 MP_mul2 ,由 于 它 计算 双 倍 长 度 的 结果 ， 央 此 永远 不 会 产生 溢出 ， 


而 且 很 容易 填写 细节 : 


(functions 374)+= 
T MP_mul2(T z, Tx, Ty) t 
int Sx, Sy; 


(checked runtime errors for binary functions 381) 


(tmp[3] — x- y 385) 
if (sx != sy) 


XP_neg((2*nbits - 1)/8 +1, z, tmp[3], 1); 


else 


memcpy(z, tmp[3], (2*nbits - 1)/8 + 1); 


return z; 


} 


{tmp [3] — x- y 385)= 
sx = sign(x); 
sy = sign(y); 
(f x < 0, negate x 386) 
(if y « 0, negate y 386) 
memset(tmp[3], 'NO', 2*nbytes); 
XP.mul(tmp[3], nbytes, x, nbytes, y); 


乘积 具有 2 + nbits 位 ， 仪 需要 z 的 (2 nbits—1)/8+1 ZY, 必要 的 时 候 在 临时 空间 形成 x 和 y 的 


取 反 值 ， 再 重新 指向 x 或 y ， 以 实现 x 和 y 取 反 。 


(if x < 0, negate x 386)= 
if (sx) { 
XP neg(nbytes, tmp[0], x, 1); 
x = tmp[0]; 


384 
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x[nbytes-1] &- msb; 
} 


(if y « 0, negate y 386)= 
if (sy) { 
XP_neg(nbytes, tmp[1], y, 1); 
y = tmp[1]; 
y[nbytes-1] &- msb; 


通常 ， 必 要 的 时 候 调 用 MP 函数 将 x 和 y 取 反 或 复制 ， 并 保存 在 tmp[0] 和 tmp[1] 中 。 
MP_mul 类 似 于 MP_mul2， 只 是 仪 拷 贝 2 .nbit 位 结果 中 最 低 有 效 nbits 位 ， 而 且 ， 结 果 不 
能 够 放 人 nbits 位 ， 或 者 操作 数 符号 相同 上 且 结 果 为 负 时 ， 会 发 生 溢出 。 


(functions 374)+= 
T MP_mul(T z, Tx, Ty) { 
int sx, sy; 


(checked runtime errors for binary functions 381) 
(tmp[3] — x- y 385) 
if (sx != sy) 

XP_neg(nbytes, z, tmp[3], 1); 
else 

memcpy(z, tmp[3], nbytes); 
z[nbytes-1] &- msb; 
(test for unsigned multiplication overflow 382) 
if (sx == sy && sign(z)) 

RAISE(MP. Overflow); 
return z; 


} 


操作 数 符号 相同 时 有 符号 除法 与 无 符号 除法 非常 相像 ， 因 为 它们 的 商 和 余数 都 非 负 。 仅 
当 被 除数 是 最 小 的 n 位 负数 且 除 数 为 -1 时 产生 溢出 ; 这 种 情况 下 ， 商 为 负 。 


(functions 3744s 
TMPdivTz, Tx, Ty) { 
int sx, sy; 


(checked runtime errors for binary functions 381) 
SX = sign(x); 
sy = sign(y); 
(if x < 0, negate x 386) 
(f y < 0, negate y 386) else (copy y to a temporary 383) 
if (!XP_div(nbytes, z, x, nbytes, y, tmp[2], tmp[3])) 
RAISE(MP. Dividebyzero); 
if (sx != sy) { 
{adjust the quotient 388) 
} else if (sx && sign(z)) 
RAISE (MP. Overflow); 
return z; 


3 


MP_div 会 将 y 取 反 置 人 临时 空间 ， 或 者 将 y 复 制 到 那里 ， 因 为 y 和 z 可 能 是 相同 的 MP_T ， 而 且 
用 tmp[2] 保 存 余数 。 
操作 数 符号 不 同时 有 符号 除法 和 取 余 会 复杂 一 些 。 这 种 情况 下 ， 商 为 负 , 但 必须 趋向 于 
负 无 穷 截 取 ， 且 余数 为 正 。 所 需 的 调整 与 AP_div 和 AP_mod 相 同 : 商 取 反 ， 且 如 果 余 数 非 零 
则 减少 商 。 同 样 ， 如 果 无 符号 余数 非 零 ，y 减 去 那个 余数 才 是 正确 数值 。 [387 


(adjust the quotient 388)= 
XP. neg(nbytes, z, z, 1); 
if Cliszero(tmp[2])) 
XP. diff(nbytes, z, z, 1); 
z[nbytes-1] &= msb; 


(macros 374)+= 
#define iszero(x) (XP. length(nbytes, (x))==1 && (x) [0]==0) 


由 于 MP_div 舍 弃 了 余数 ， 因 此 它 不 影响 余数 的 调整 。MP_mod 恰 好 相反 ， 它 仅 调整 余数 ， 并 
用 tmp[2] 保 存 余数 。 


(functions 374)+= 
T MP_mod(T z, Tx, Ty) { 
int sx, sy; 


(checked runtime errors for binary functions 381) 
SX = sign(x); 
sy = sign(y); 
(if x < 0, negate x 386) 
(if y « 0, negate y 386) else (copy y to a temporary 383) 
if (!XP_div(nbytes, tmp[2], x, nbytes, y, z, tmp[3])) 
RAISE(MP. Di videbyzero); 
if (sx != sy) { 
if (liszero(z)) 
XP_sub(nbytes, z, y, z, 0); 
} else if (sx && sign(tmp[2])) 
RAISE(MP. Overflow); 
return 2; 


} 
19.3.4 简易 函数 


算术 简易 函数 接收 一 个 长 整 型 或 无 无 符号 长 整 型 直接 操作 数 ， 根 据 需要 将 其 转换 成 一 个 
MP_T ， 并 执行 相应 算法 操作 。y 是 以 2 为 底数 的 一 位 数 ， 这 些 函 数 可 以 使 用 XP 导出 的 一 位 
数 函数 。 但 是 有 两 种 情况 会 产生 溢出 : y 太 大 以 及 操作 数 本 身 溢出 。 如 果 y 太 大 ， 这 些 函数 必 [388] 
须 在 引发 异常 之 前 完成 操作 及 z 的 赋值 。MP_addui 描 述 了 所 有 简易 函数 所 使 用 的 这 种 方法 : 





(functions 374)+= 
T MP_addui(T z, T x, unsigned long y) { 
(checked runtime errors for unary functions 378) 
if (y < BASE) { 
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int carry = XP sum(nbytes, z, x, y); 
carry |= z[nbytes-1]&-msb; 
z[nbytes-1] &= msb; 
(test for unsigned overflow 376) 

) else if (applyu(MP. addu, z, x, y)) 
RAISE(MP. Overflow); 

return z; 


} 


(macros 374)+= 
#define BASE (1<<8) 


如 果 y 是 一 位 数 ，XP_sum 可 以 计算 x+y。，nbits 小 于 8 





是 y 太 大 时 这 段 代 码 还 会 检测 溢出 ， 因 为 
对 任 一 x 总 和 都 会 太 大 。 否 则 ，MP_addui 调 用 applyu 将 y 转 换 成 MP_T ， 并 应 用 更 常用 的 函数 
MP_addu。 如 果 y 太 大 ，applyu 返 回 一 个 1 ， 但 仪 在 它 计 算 完 z 之 后 : 





(static functions 389)= 
static int applyu(T op(T, T, T), Tz, T x, 
unsigned long u) ( 
unsigned long carry; 


{ T z = tmp[2]; (setz tou 376) } 
op(z, x, tmp[2]); 
return carry != 0; 


} 


applyu 使 用 MP_fromintu 的 代码 转换 这 个 无 符号 长 整 型 操作 ， 并 放 人 tmp[2] 。 它 还 保存 
转换 中 的 carry ， 内 为 转换 可 能 会 溢出 。 然 后 调用 它 第 一 个 参数 指定 的 函数 ; 而 且 ， 如 果 保 存 
的 carry 非 零 ， 则 返回 1 ， 和 否则 返回 0。 函 数 op 也 会 引发 异常 ,但 也 仪 在 设置 完 z 后 。 

无 符号 减法 和 乘法 的 简易 函数 非常 相似 。y 小 于 2 时 ，MP_subui 调 用 MP _diff。 

(functions 381)+= 


T MP_subui(T z, T x, unsigned long y) { 
(checked runtime errors for unary functions 381) 
if Cy « BASE) ( 
int borrow - XP_diff(nbytes, z, x, y); 
borrow |= z[nbytes-1]&-msb; 
z[nbytes-1] &- msb; 
(test for unsigned underflow 381) 

) else if (applyu(MP subu, 2, X, y)) 


RAISE(MP Overflow); 
return z; 


} 


如 果 y 太 大 ， 不 管 x 为 何 值 x-y TF, 因此 MP_subui 调 用 XP_diff 之 前 不 需要 检查 y 是 否 太 大 。 


MP_mului 调 用 MP_product ， 但 是 nbits 小 于 8 时 MP_mului 必须 显 式 检 查 y 是 否 太 大 ， 因 为 
Xx 为 零 时 XP_product 不 会 捕捉 那个 错误 .这 个 检查 也 是 在 计算 完 z 之 后 执行 的 . 
T MP_mului(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 381) 
if (y « BASE) { 
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int carry = XP_product(nbytes, z, x, y); 
carry |= z[nbytes-1]&-msb; 
z[nbytes-1] &= msb; 
(test for unsigned overflow 376) 
(check if unsigned y is too big 390) 

} else if (applyu(MP mulu, z, x, y)) 
RAISE(MP. Overflow); 

return z; 


} 


(check if unsigned y is too big 390)= 
if (nbits < 8 && y >= (1U««nbits)) 
RAISE(MP. Overflow); 


MP. divuifl MP. moduif£ H] XP. quotient, 但 是 它们 必须 检测 自身 的 除数 是 否 为 零 ( 因为 
XP_quotient 只 接受 非 零 的 一 位 除数 )， 而 且 nbits 小 于 8 上 且 y 太 大 时 它们 必须 检测 溢出 。 


(functions 381)+= 
T MP. divui(T z, T x, unsigned long y) { 
(checked runtime errors for unary functions 381) 
if (y == 0) 
RAISE(MP. Dividebyzero); 
else if (y « BASE) ( 
XP quotient(nbytes, z, x, y); 
(check if unsigned y is too big 390) 
} else if (applyuCMP_divu, z, x, y)) 
RAISE(CMP. Overflow); 
return z; 


} 
MPF_modui 调 用 XP_quotient ， 但 是 仅 用 以 计算 余数 。 它 含 弃 保 在 在 tmp[2] 中 的 余数 : 


(functions 381)+= 
unsigned long MP modui(T x, unsigned long y) { 
assert(x); 
if (y 24 0) 
RAISE(MP. Dividebyzero); 
else if (y « BASE) { 
int r = XP. quotient(nbytes, tmp[2], x, y); 
(check if unsigned y is too big 390) 
return r; 
} else if (applyu(MP. modu, tmp[2], x, y)) 
RAISE(CMP. Overflow); 
return XP toint(nbytes, tmp[2]); 
} 


有 符号 算法 简易 函数 使 用 相同 的 方法 ， 但 是 调用 不 同 的 apply 函数 ， 这 个 函数 使 用 
MP_fromint 代 码 将 tmp[2] 中 的 长 整数 转换 成 有 符号 MP_T， 还 调用 期 望 函 数 ， 而 且 ， 如 果 寺 
接 操作 数 太 大 则 返回 1 ， 否 则 返回 0。 


(static functions 389)+= 
static int apply(T op(T, T, T), T z, T x, long v) { 


286 $19* 





{ T z = tmp[2]; (setz tov 377) 1 
op(z, x, tmp[2]); 
return (v is too big 377); 


} 
lyl/h F2* Bf, ， 有 符号 简易 函数 要 完成 的 工作 比 它 们 对 应 的 无 符号 简易 函数 要 稍 多 一 点 ， 


因为 它们 必须 处 理 有 符号 操作 数 。 一 位 数 XP 函 数 只 接受 正 的 一 位 操作 数 , 因此 有 符号 简易 
函数 必须 使 用 它们 操作 数 的 符号 确定 调用 哪个 函数 。 这 个 分 析 类 似 于 AP 函数 所 做 的 分 析 
(参见 前 面相 关 章 节 ), 但 是 MP 的 二 进 制 补 码 表示 形式 简化 了 细节 。 下 表 是 加 法 的 情形 。 










y<0 y20 
-dxb- = x- -dx - Iyi) = x «bl 
x20 Ix| - M = x- 1M Ix| + 9l = x «| 


y 为 负 时 ， 对 任意 x ，x+y 都 等 于 x-lyl|， 因 此 MP_addi 可 以 使 用 XP_diff 计 算 总 和 ; y 非 负 时 可 
以 使 用 XP_sum 。 


(functions 381)+= 
T MP_addi(T z, T x, long y) { 
(checked runtime errors for unary functions 381) 
if (-BASE « y && y « BASE) { 
int sx = sign(x), sy = y «0; 
if (sy) 
XP. diff(nbytes, z, x, -y); 
else 
XP.sum (nbytes, 2, x, y); 
z[nbytes-1] &- msb; 
(test for signed overflow 384) 
(check if signed y is too big 393) 
j else if (apply(MP. add, z, x, y)) 
RAISE(MP. Overflow); 
return z; 
} 
(check if signed y is too big 393)= 
if (nbits « 8 
&& (y < -(1««(nbits-1)) || y >= (1<<(nbits-1)))) 
RAISE(MP Overflow); 


有 符号 减法 的 情形 与 加 法 正好 相反 ( 参见 前 面 章节 AP_sub 分 析 ): 









yz20 
-dxi-bb = x«l -(Ixf + Iy) = x-14M 
x20 Ix} «14 = x «194 ixi - 19 = x-14 


内 此 ，y 为 负 时 MP_subi 调 用 XP_sum 将 ly! 与 x< 相 加 ，y 非 负 时 调用 XP_diff。 


(functions 381)+= 
T MP_subi(T z, T x, long y) { 
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(checked runtime errors for unary functions 381) 
if (-BASE < y && y < BASE) { 
int sx = sign(x), sy = y < 0; 
if (sy) 
XP_sum (nbytes, z, x, -y); 
else 
XP. diff(nbytes, z, x, y); 
z[nbytes-1] &- msb; 
(test for signed underflow 384) 
(check if signed y is too big 393) 
] else if (apply(MP.sub, z, x, y)) 
RAISE(MP. Overflow); 
return z; 


} 
MP_muli 使 用 MP_mul 的 策略 : 它 将 负 的 操作 数 取 反 ， 调 用 XP_product 计 算 乘 积 ， 而 且 
如 果 操 作 数 符号 不 同 还 要 将 乘积 取 反 。 


(functions 381)+= 
T MP_muli(T z, T x, long y) { 
(checked runtime errors for unary functions 381) [393] 


if (-BASE < y && y < BASE) f 
int sx = sign(x), sy = y< 0; 
(if x <0, negate x 386) 
XP_product(nbytes, z, x, sy ? -y : y); 
if (sx != sy) 
XP_neg(nbytes, z, x, 1); 
z[nbytes-1] &- msb; 
if (sx == sy && sign(z)) 
RAISE(MP Overflow); 
(check if signed y is too big 393) 
} else if (apply(MP. mul, z, x, y)) 
RAISE(MP. Overflow); 
return z; 


H 
MP_divi 和 MP_modi 必 须 检 查 除 数 是 否 为 零 ， 因 为 它们 调用 XP_quotient 计 算 商 和 余数 。 
MP divi &3r RR, mjMP modi 3r gd. 


(functions 
T MP.diviCT z, T x, long y) { 

(checked runtime errors for unary functions 381) 

if (y == 0) 
RAISE(MP. Dividebyzero); 

else if (-BASE « y && y « BASE) ( 
int r; 
(Z €- xly, r — x mod y 395) 
(check if signed y is too big 393) 

else if Capply(MP div, z, x, y)) 
RAISE(MP. Overflow); 

return z; 
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long MP modi(T x, long y) 1 
assert(x); 
if (y == 0) 
RAISE(MP_Dividebyzero) ; 
else if (-BASE < y && y < BASE) { 


T z tmp[2]; 
int r; 

(Z & xly, r e x mod y 395) 
(check if signed y is too big 393) 
return r; 


) else if (apply(MP mod, tmp[2], x, y)) 
RAISE (MP. Overflow); 
return MP toint(tmp[2]); 
} 
MP_modi 调 用 MP_toint 而 非 XP_toint 以 确定 符号 得 到 正确 地 扩展 。 
MP_divi 和 MP_modi 共 有 的 代码 块 计算 商 和 余数 ， 并 在 < 和 y 符 号 不 同 且 余 数 非 零 时 调整 
商 和 余数 。 





(Z — Xly, r e x mod y 395)s 
int sx = sign(x), sy y < 0; 
(if x < 0, negate x 386) 
r = XP. quotient(nbytes, z, x, sy ? -y : y); 
if (sx != sy) { 
XP_neg(nbytes, z, z, 1); 


if (r t= 0) { 
XP. diff(nbytes, z, z, 1); 
r-y-r; 


} 
z[nbytes-1] &- msb; 

] else if (sx && sign(z)) 
RAISE(MP Overflow); 


19.3.5 比较 和 逻辑 操作 


无 符号 比较 很 容易 一 一 MP_cmp 就 可 以 调用 XP_cmp: 


(functions 381)+= 
int MP_cmpu(T x, T y) { 
assert(x); 
assert(y); 
return XP. cmp(nbytes, x, y); 


) 
395] X 和 y 符 号 不 同时 ，MP_cmp(x, y) 仅 返回 y 与 x 的 符号 差别 : 


(functions 381)+= 
int MP_cmp(T x, Ty) { 
int sx, sy; 


assert(x); 
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assert(y); 
SX = Sign(x); 
sy = sign(y); 
if (sx != sy) 
return sy - sx; 
else 
return XP cmp(nbytes, x, y); 
} 
x 和 y 符 号 相同 时 ，MP_cmp 可 以 把 它们 作为 无 符号 数 处 理 ， 然 后 调用 XP_cmp 进 行 比较 。 
比较 简易 孙 数 不 能 使 用 applyu 和 apply ， 因 为 它们 计算 整数 结果 ， 而 且 它 们 并 不 要 求 它们 
的 长 整 型 和 无 符号 长 整 型 操作 数 匹配 MP_T。 这 些 函 数 仪 仅 是 将 MP_T 与 一 个 立即 数 进 行 比 
较 ; 这 个 值 太 大 时 ， 就 会 反映 在 比较 结果 中 。 一 个 无 符号 长 整数 的 位 数 至 少 为 nbits 时 ， 
MP_cmpui 就 把 MP_T 转 换 成 一 个 无 符号 整数 ， 并 使 用 通常 的 C 比 较 函数 。 否 则 ， 它 就 把 立即 
数 转换 为 MP_T 保 存在 tmp[2] 中 ， 然 后 调用 XP_cmp。 














(functions 381)+= 
int MP cmpui(T x, unsigned long y) { 
assert(x); 
if (Cint)sizeof y >= nbytes) { 
unsigned long v = XP. toint(nbytes, x); 
(return -1, 0, +1, ifv «y, v5 y, v » y 396) 
else 1 
XP. fromint(nbytes, tmp[2], y); 
return XP cmp(nbytes, x, tmp[2]); 


} 


(return -1, 0, +1, ifv < Y, v =y, v» y 396) 
if (v < y) 
return -1; 
else if (v » y) 
return 1; 
else 
return 0; 


ME_cmpui 调 用 XP_fromint 之 后 不 必 检 查 溢 出 ， 因 为 那个 调用 仪 在 y 的 位 数 小 于 MP_T 时 
执行 。 

x 和 y 符 号 不 同时 MP_cmpi 可 以 不 用 全 部 都 进行 比较 ， 它 采用 了 MP_cmpui 的 方法 : 如 果 
立即 数 的 位 数 不 少 于 MP_T ， 就 可 以 用 C 的 比较 函数 完成 比较 。 

(functions 374) 


int MP cmpi(T x, long y) { 
int sx, sy = y <Q; 


assert(x); 

SX = sign(x); 

if (sx != sy) 
return sy - sx; 


[397] 
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else if (CinOsizeof y >= nbytes) { 
long v = MP_toint(x); 
(return —1,0,+1, ifv«y, voy, V > y 396) 
) else { 
MP. fromint(tmp[21, y); 
return XP.cmp(nbytes, x, tmp[2]); 


} 
xX 和 y 符 号 相同 且 y 的 位 数 小 于 MP_T 时 ，MP_cmpi 可 以 安全 地 把 y 转 换 成 MP_T 并 保存 在 
tmp[2] 中 ， 然 后 调用 XP_cmop 比较 x 和 tmp[2]。MP_cmpi 调 用 MP_fromint 而 不 EXP. fromint 是 
为 了 正确 处 理 负 值 的 y 。 
二 进 制 池 辑 函数 一 一 MP_and 、MP_or 及 MP_xor 
的 每 个 字 节 都 是 操作 数 相应 字 节 商 的 按 位 操作 。 


(macros 374)+= 
#define bitop(op) \ 
int i; assert(z); assert(x); assert(y); \ 
for (i = 0; i < nbytes; i++) z[i] = x[i] op y[i]; \ 
return z 
(functions 374)+= 
T MP and(T z, T x, T y) { bitop(&; } 
T MP. or (T z, T x, T y) 1 bitop(D; } 
T MP xor(T z, T x, T y) { bitop(A); } 


MP. not ILE PE, ， 它 不 匹配 bitop 的 模式 : 


是 最 容易 实现 的 MP 函数 ， 因 为 结果 





(functions 374)+= 
T MP not(T z, Tx) { 
int i; 


(checked runtime errors for unary functions 378) 
for (i = 0; i < nbytes; i++) 
z[i] = -x[i]; 
z[nbytes-1] &- msb; 
return z; | 


} 
为 三 个 逻辑 简易 函数 的 单数 字 操 作 数 专门 编写 代码 几乎 没有 什么 收获 ,而且 这 些 函数 的 
直接 操作 数 不 会 引发 异常 。 仍 旧 可 以 使 用 applyu; 它 的 返回 值 就 被 忽略 不 计 了 。 


(macros 3749 
#define bitopi(op) assert(z); assert(x); \ 
applyuCop, z, x, y); N 
return z 


(functions 374)+= 
T MP.andi(T z, T x, unsigned long y) { bitopi (MP. and); } 
T MPLori (T z, T x, unsigned long y) { bitopi(MP or); } 
T MP_xori(T z, T x, unsigned long y) { bitopi (MP. xor); } 
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这 三 个 移 位 函数 先 执行 可 检查 的 运行 期 销 误 ， 并 检查 s 大 于 或 等 于 nbits 时 的 简单 情况 ， 
这 种 情况 下， 结果 都 是 0 或 都 是 1， 然 后 再 调用 XP_Ishift 或 XP_rshift。XP_ashift 用 1 进行 填充 ， 
然后 实现 一 个 算术 右 移 。 


(macros 374) 
#define shft(fill, op) \ 398 
assert(x); assert(z); assert(s >= 0); \ 
if (s >= nbits) memset(z, fill, nbytes); \ 
else op(nbytes, z, nbytes, x, s, fill); \ 
z[nbytes-1] &- msb; \ 
return z 


(functions 374)+= 
T MP .Ishift(T z, T x, int s) ( shft(0, XP Tshift); } 
T MP. rshift(T z, T x, int s) { shft(0, XP rshift); ) 
T MP. ashift(T z, T x, int s) { shft(sign(x),XP_rshift); } 


19.3.6 字符 串 转换 


最 后 四 个 函数 在 字符 串 和 MP_T 之 间 进 行 转换 。MP_fromstr 很 像 strtoul; 它 把 字符 串 解 
释 成 底数 在 2 到 36 之 间 的 一 个 无 符号 数 。 字 母 表示 底数 大 于 10 时 的 9 以 上 数字 。 


(functions 374)+= 
T MP. fromstr(T z, const char *str, int base, char **end){ 
int carry; 


assert(z); 

memset(z, '\0', nbytes); 

carry = XP_fromstr (nbytes, z, str, base, end); 
carry |= z[nbytes-1]&~msb; 

z[nbytes-1] &= msb; 

(test for unsigned overflow 376) 

return Z; 


} 
XP_fromstr 执 行 这 个 转换 ， 而 且 ， 如 果 end 非 空 则 把 *end 设 置 成 终止 转换 过 程 的 那个 字符 地 
址 。 由 于 XP_fromint 把 转换 得 到 的 值 添加 到 z， 因 此 z 被 初始 化 为 零 。 . 

MP_tostr 完 成 相反 的 转换 ， 它 接收 一 个 MP_T， 并 将 MP_T 值 表示 成 以 2 到 36 之 间 的 数 为 
底数 的 字符 串 形 式 ， 用 以 填充 一 个 字符 串 。 


(functions 374)+= 
char *MP tostr(char *str, int Size, int base, T x) { 





assert(x); 
assert(base »- 2 && base «- 36); 
assert(str -- NULL |] size » 1); 


if (str == NULL) { 
(size <— number of characters to represent x in base 400) 
str = ALLOC(size); 
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memcpy(tmp[1], x, nbytes); 
XP. tostr(str, size, base, nbytes, tmp[1]); 
return str; 


} 
如 果 str 为 空 ，MP_tostT 就 分 配 一 个 足够 长 的 字符 趾 保 存 x 以 base 为 底数 的 表示 形式 。 
MP _tostr 使 用 AP_tostr 的 技巧 计算 这 个 字符 串 的 大 小 : str 至 少 必 须 有 nbitsk | 个 字符 ， 这 里 
k 要 使 2 是 小 于 或 等 于 base 的 两 个 值 中 的 最 大 指数 (参见 第 18 章 字符 串 和 整数 转换 内 容 )， 而 
且 出 于 终止 空 字符 的 存在 还 要 加 1。 


(size — number of characters to represent x in base 400)= 


i 
int k; 
for (k = 5; (i««k) > base; k--) 
size = nbits/k + 1 + 1; 

} 


Fmt 样 式 的 转换 函数 格式 化 无 符号 或 有 符号 MP_T。 每 个 函数 都 需要 两 个 参数 : 一 
MP_T 和 一 个 位 于 2 到 36 之 间 的 底数 。MP_fmtu 调 用 MP_tostr 转 换 它 的 MP_T， 并 调用 
Fmt_putd 打 印 转换 结果 。 回 调 Fmt_putd 以 Printf 的 %d 转 换 方式 打印 数值 。 


(functions 374)+= 
void MP. fmtu(int code, va list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
Tx; 
char *buf; 


assert(app && flags); 
x = va arg(*app, T); 
assert(x); 


buf = MP tostr(NULL, 0, va .arg(*app, int), x); 
Fmt putd(buf, strlen(buf), put, cl, flags, 
width, precision); 
FREE (buf) ; 
} 


MP_fmt 要 完成 的 工作 稍 多 一 点 ， 因 为 它 把 MP_T 解 释 成 一 个 有 符号 数 ， 但 是 MP_tostr 只 接 
受 无 符号 MP_T。 因 而 ，MP_fmt 自 己 分 配 缓冲 区 ， 这 样 如 果 需 要 的 话 它 就 能 包含 一 个 前 导 符号 。 


(functions 374)+= 
void MP fmt(int code, va list *app, 
int put(int c, void *cl), void *c], 
unsigned char flags[], int width, int precision) { 
X; 
int base, size, sx; 
char *buf; 


assert(app && flags); 
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x = va arg(*app, T); 
assert(x); 
base = va arg(*app, int); 
assert(base >= 2 && base <= 36); 
sx = sign(x); 
(f x < 0, negate x 386) 
(size e number of characters to represent x in base 400) 
buf = ALLOC(size+1); 
if (sx) { 
buf[0] = '-'; 
MP tostr(buf + 1, size, base, x); 
} else 
MP tostr(buf, size + 1, base, x); 
Fmt putd(buf, strlen(buf), put, cl, flags, 
width, precision); 


FREECbuf) ; 
} 
参考 书目 浅 析 


多 精度 算法 经 常用 于 编译 器 ， 而 且 有 时 还 必须 使 用 。 例 如 ，Clinger (1990 ) 表明 ， 把 浮 
点 的 直接 量 转换 成 相应 的 IEEE 浮 点 表示 法 有 时 需要 多 精度 算法 以 获取 最 佳 的 准确 度 。 

Schneier (1996 ) 是 关于 密码 学 的 一 次 广泛 调查 。 此 书 非常 实用 ， 而 且 还 用 C 实 现 了 其 
中 一 些 算 法 。 这 本 书 还 有 详尽 的 参考 书目 ， 对 继续 深入 调查 是 个 不 错 的 起 点 。 

正如 第 17 章 乘法 一 节 内 容 所 示 ， 两 个 n 位 数 相 乘 需要 的 时 间 与 n? 成 正比 。Press et al. 
(1992 ) 中 的 20.6 节 介绍 了 如 何 使 用 快速 Fourier ( 傅立叶 ) 转换 在 与 n Ign lg lgn 成 比例 的 时 
间 内 实现 乘法 。 它 还 通过 计算 1/y 的 倒数 再 乘 以 X 实 现 了 x/y。 这 种 方法 用 于 小 数 部 分 时 需要 
多 精度 数值 。 


练习 


19.1 


19.2 


19.3 


19.4 


19.5 


"Inbits 是 8 的 倍数 时 ，MP 函数 做 了 大 量 不 必要 的 工作 。 你 是 否 能 够 修改 MP 的 实现 
避免 abits mod 8 为 零 时 出 现 这 种 情况 ”实现 你 的 方案 并 估量 -一 下 它 的 优点 或 代价 。 
对 许多 应 用 程序 而 言 ， 一 旦 选 好 nbits ， 就 不 再 改变 。 实 现 一 个 产生 器 ， 给 定 nbits 
的 某 个 值 ， 生 成 一 个 接口 ， 并 实现 nbits 位 算法 MP_nbits ， 其 他 与 MP 相同 。 

设计 并 实现 一 个 定点 多 精度 数 算法 的 接口 ， 也 就 是 说 ， 这 些 数 都 有 整数 部 分 和 小 
数 部 分 。 客 户 调用 程序 应 能 够 指定 数值 两 部 分 的 数字 。-- 定 要 指定 取 含 的 细节 。 
Press et al. (1992 ) 20.6 节 涉及 了 这 道 习题 的 一 些 有 用 算法 。 

设计 并 实现 -一 个 浮 点 数 算法 的 接口 ， 其 中 客户 调用 程序 可 以 指定 指数 及 有 效 位 的 
位 数 。 考 虑 这 道 题 之 前 阅读 一 下 Goldberg (1991), 

XP 和 MP 函数 没有 使 用 const 限 定 词 参 数 ， 第 17 章 接口 一 节 中 详细 说 明了 其 中 原因 。 
但 是 ，XP_T 和 MP_T 的 其 他 定义 可 以 正确 地 处 理 常数 。 例 如 ， 如 果 这 样 定义 T: 
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typedef unsigned char T[]; 

“const T” 就 是 指 “ 无 符号 常 字符 型 的 数组 ”; 又 例如 ，MP_add 可 以 这 样 声 明 : 

unsigned char *MP add(T z, const T x, const T y); 

在 MP_add 中 ,x 和 y 具 有 “指向 无 符号 常 值 字符 ”的 类 型 ， 因 为 形 参 中 的 数组 类 型 

“衰变 ”到 相应 的 指针 类 型 。 当 然 ， 常 数 不 能 防止 偶然 失真 ， 因 为 可 能 会 这 样 ， 比 

方 说 相同 的 数组 可 能 会 既 传 递 给 z 又 传递 给 x 。MP_add 的 这 个 声明 说 明了 把 T 定 义 

为 数组 类 型 的 一 个 缺点 : T 不 能 用 作 返 回 类 型 ， 而 且 客 户 调用 程序 不 能 声明 T 类 型 

的 变量 。 这 种 数组 类 型 仪 对 参数 有 用 。 将 T 定 义 为 unsigned char 的 typedef 可 以 避 

免 这 个 问题 : 

typedef unsigned char T; 

这 样 定 义 ，MP_add 的 声明 就 可 以 是 

T *MP_add(T z[], const T x[], const T y[]); 

T *MP.add(T *z, T *x, T *y); 

中 的 任何 一 种 。 

使 用 这 两 种 T 的 定义 重新 实现 XP 及 其 客户 调用 程序 、AP MP., calc 及 mpcalc 。 再 
403 把 结果 的 可 读 性 与 原始 数据 进行 比较 。 


第 20 章 线 E 


一 般 的 C 程 序 都 是 顺序 执行 程序 或 单线 程 程序 ， 即 程序 中 只 有 一 条 控制 轨迹 。 出 程序 的 
单元 计数 器 给 出 每 条 指令 执行 时 的 地 址 。 大 多 数 情 况 下 存储 单元 都 是 顺序 向 前 移动 ， 一 次 一 
条 指令 。 单 元 计数 器 偶尔 会 因 跳 转 指令 或 调用 指令 而 变 为 跳 转 的 目的 位 置 或 被 调用 函数 的 地 
址 。 存 储 单元 计数 器 的 值 描绘 出 了 贯穿 程序 的 一 条 描述 程序 执行 过 程 的 路 径 ; 这 条 路 径 看 上 
去 像 一 个 贯穿 程序 的 线程 。 

并 行 或 多 线程 程序 具有 多 个 线程 ， 而 且 最 一 般 的 情况 下 ， 这 些 线程 都 是 同时 执行 的 ， 至 
少 理论 上 是 这 样 。 正 是 并 行 执行 使 得 多 线程 应 用 程序 的 编写 比 单线 程 应 用 程序 的 编写 更 加 复 
杂 ， 因 为 线程 相互 之 间 进 行 交互 时 具有 潜在 的 不 确定 性 。 本 章 的 这 三 个 接口 导出 了 用 以 创建 
和 管理 线程 、 同 步 协作 线程 的 行为 以 及 在 线程 之 间 进 行 通信 的 函数 。 

对 于 具有 并 行 行为 这 种 内 在 特性 的 应 用 程序 来 说 ， 线 程 非常 有 用 。 图 形 用 户 接口 
(graphical user interface, GUI) 是 个 最 好 的 例子 ; 键盘 输入 、 和 鼠标 移动 和 点 击 以 及 显示 输 
出 内 容 全 部 是 同时 进行 。 在 多 线程 系统 中 ， 线 程 可 以 专门 致力 于 这 些 行为 中 的 每 一 个 ， 而 不 
用 考虑 其 他 内 容 。 这 种 方法 有 助 于 简化 用 户 接 口 的 实现 ， 因 为 每 个 线程 都 可 以 像 是 一 个 顺序 
程序 一 样 来 设计 并 编写 ,除非 它们 必须 与 其 他 线程 通信 或 同步 。 

在 多 处 理 器 的 计算 机 上 ， 线 程 能 够 改进 那些 可 以 容易 地 分 解 成 相对 独立 子 任务 的 应 用 程 
序 的 性 能 。 每 个 子 任务 都 运行 在 单独 的 线程 中 ， 而 且 它 们 全 部 并 行 运 行 ， 这 样 完成 起 来 就 比 
顺序 执行 这 些 子 任务 要 快 一 些 。20.2 节 介绍 了 一 个 使 用 这 种 方法 的 排序 程序 。 

线程 对 构造 顺序 程序 也 有 帮助 ， 闪 为 它们 具有 状态 ， 线程 包 含 足够 的 相关 信息 ， 供 其 停 
止 之 后 在 停 下 的 地 方 重新 开始 。 例 如 ， 典 型 的 UNIX C 编译 器 由 一 个 单独 的 预 处 理 程序 和 一 
个 汇编 程序 组 成 。 预 处 理 程 序 读 取 源 代码 、 包 含 头 文件 、 扩 展 宏 并 给 出 合成 的 源 代码 ， 编 译 
器 读 取 并 解析 展开 的 源 代码 ， 生 成 代码 以 及 汇编 语言 代码 ;汇编 程序 读 取 汇编 语言 生成 自 标 
代码 。 这 些 过 程 通常 都 是 通过 读 写 临时 文件 相互 进行 通信 。 排 除 临 时 文件 以 及 读 、 写 和 删除 
这 些 文件 的 系统 开销 ， 使 用 线程 ， 每 个 阶段 都 可 以 作为 单个 应 用 程序 里 的 独立 线程 运行 。 纺 
译 器 本 身 可 能 也 在 词法 分 析 器 和 解析 器 上 使 用 独立 的 线程 。20.2 节 用 计算 素数 的 一 个 管道 举 
例 说 明了 线程 的 这 种 用 法 。 

一 些 系统 并 不 是 针对 多 线程 应 用 程序 进行 设计 的 ， 这 会 限制 线程 的 效用 。 例 如 ， 大 多 数 
UNIX 系 统 都 具有 阻塞 WO 原 语 ， 也 就 是 说 ， 当 一 个 线程 发 出 读 请 求 时 ，UNIX 进 程 及 其 所 有 
线程 都 在 等 待 这 个 请 求 的 完成 。 在 这 些 系统 上 面 ， 线 程 不 能 与 WO 共用 有 用 的 计算 结果 。 信 
号 处 理 也 非常 类 似 。 大 多 数 UNIX 系 统 是 把 信号 和 信和 号 处 理 器 与 进程 关联 起 来 ， 而 不 是 与 进 
程 中 的 个 别 线程 关联 。 

线程 系统 支持 用 户 级 或 核心 级 的 线程 ， 或 者 两 种 都 支持 。 用 户 级 线程 完全 以 用 户 模式 实 
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现 ， 无 需 操作 系统 的 帮助 。 用 户 级 的 线程 包 经 常 有 上 述 的 一 些 缺 点 ; 但 另 一 方面 ， 用 户 级 线 
程 的 作用 也 非常 大 。 下 一 节 的 Thread 接 口 介 绍 了 用 户 级 线程 。 

核心 级 线程 使 用 操作 系统 工具 提供 服务 ， 例 如 ， 非 阻塞 IO 和 每 线程 信号 处 理 。 较 新 的 
操作 系统 拥有 核心 级 的 线程 ， 并 使 用 这 些 线程 提供 线程 接口 。 这 些 接口 的 一 些 操作 需要 系统 
调用 ， 但是， 通常 这 样 会 比 用 户 级 线程 里 的 类 似 操 作 代 价 更 高 。 

即使 在 具有 核心 级 线程 的 系统 上 ， 标 准 库 可 能 不 是 可 再 次 进入 或 者 安全 线程 的 。 一 个 可 
再 次 进 人 的 函数 只 能 修改 局 部 变量 和 参数 。 修 改 全 局 变量 或 使 用 静态 变量 来 保存 中 间 结 果 的 
函数 是 不 可 再 次 进入 的 。 标 准 C 库 中 一 些 函 数 的 典型 实现 就 是 不 可 再 次 进入 的 。 如 果 同 时 激 
活 两 个 或 更 多 的 不 可 再 次 进入 函数， 它们 就 会 以 不 可 预知 的 方式 修改 这 些 中 间 值 。 在 单线 程 
程序 中 ， 由 于 直接 和 间接 的 递归 ， 可 以 同时 激活 多 个 函数 。 在 多 线程 程序 中 ， 因 为 不 同 的 线 
程 可 以 同时 调用 同一 函数 ， 因 此 可 以 激活 多 个 函数 。 这 样 ， 同时 调用 一 个 不 可 再 次 进入 函数 
的 两 个 线程 会 修改 未 定义 结果 的 相同 存储 空间 。 

线程 安全 函数 使 用 同步 机 制 管理 共享 数据 的 访问 ， 并 因而 可 以 或 者 不 可 再 次 进入 。 这 种 
函数 可 由 多 个 线程 同时 调用 ， 而 不 用 考虑 同步 问题 ， 这 样 多 线程 客户 调用 程序 使 用 起 来 就 更 
容易 一 些 ， 但 同时 也 产生 了 同步 的 代价 ， 即 使 是 对 单线 程 客户 调用 程序 。 

标准 C 不 要 求 库 函数 可 再 次 进 人 或 为 线程 安全 的 ， 因此 程序 员 必 须 设 想 最 坏 情况 ， 并 使 
用 同步 原 语 确保 某 一 时 刻 仅 有 一 个 线程 在 执行 一 个 不 可 再 次 进入 的 库 函 数 。 

本 书 中 的 大 多 数 函 数 都 不 是 线程 安全 的 ， 但 是 可 再 次 进入 。 有 些 函 数 与 Text_map 一 样 都 
是 不 可 再 次 进入 的 ， 生 多 线程 客户 调用 程序 必须 调度 它们 自身 的 同步 问题 。 例如 ， 如 果 几 个 
线程 共享 一 个 Table_T ,它们 必须 确保 每 次 只 有 其 中 一 个 在 调用 Table 接 口中 有 具有 Table_T 的 
函数 ， 就 像 下 文中 说 明 的 那样 。 

一 些 线程 接口 既 设 计 用 作用 户 级 线程 ， 又 用 作 核心 级 线程 。UNIX , Open VMS, OS/2, 
Windows NT Windows 95 的 大 多 数 变 体 都 具有 开放 软件 基金 会 (Open Software 
Foundation ) 的 分 布 式 计算 环境 (Distributed Computing Environment, DCE ), fa £DCE, 
一 般 地 ， 如 果 主 机 的 操作 系统 支持 ， PCBE 线 程 就 使 用 核心 级 线程 ;否则 ，DCE 线 程 就 被 实现 
为 用 户 级 线程 。 DCE 线 程 接口 有 50 多 个 函数 ， 比 本 章 的 其 他 三 个 接 口 要 大 很 多 , 但 是 , DCE 
接口 的 功能 也 更 多 。 例如， 它 的 实现 支持 线程 级 信号 ， 保护 对 标准 库 函 数 调 用 的 适当 同步 。 

Sun Microsystem 的 Solaris 2 操作 系统 具有 一 个 两 级 线程 工具 。 核心 级 线程 被 称 为 轻 量 
进程 或 LWP; 每 个 UNIX “重量 ”进程 至 少 有 -- 个 LWP。 Solaris 运 行 一 个 或 多 个 LWP 以 运行 
一 个 UNIX 进 程 。 对 LWP 的 核心 支持 包括 非 阻塞 /0 及 每 LWP 信 和 号。 用户 级 线程 由 一 个 类 似 
于 Thread 但 比 Thread 大 的 接口 提供 ， 一 个 LWP 可 以 服务 于 一 个 或 更 多 用 户 级 线程 。Solaris 在 
LWP 之 间 多 路 复 用 处 理 器 ， 并 像 这 样 在 用 户 级 线程 之 间 复 用 自身 。 

POSIX (Portable Operating Systems Interface ， 便 携 式 操作 系统 接口 ) 线程 接口 简 
称 pthread 是 作为 重要 的 标准 线程 接口 出 现 的 。 大 多 数 商家 现在 都 提供 pthread 的 实现 ， 
可 能 是 基于 他 们 自己 的 线程 接口 。 例 如 ，Sun Microsystems 使 用 Solaris 2 LWP 实 现 pthread , 
pthread 工 具 是 Thread 和 Sem 导 出 的 那些 函数 的 父 集 。 更 大 - 些 的 POSIX 接 口 可 以 处 理 每 线程 
信号， 包含 几 种 同步 机 制 ， 以 及 指定 娜 个 标准 C 库 函数 必须 是 线程 安全 的 。 
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本 章 中 的 这 三 个 接口 每 个 都 很 小 ; 它们 被 分 成 单独 的 接口 ， 因 为 每 个 接口 都 有 一 个 相关 
但 截然 不 同 的 意图 。 

理论 上 ， 所 有 运行 着 的 线程 都 是 并 行 运行 ,但 实际 上 ， 线 程 通常 比 实际 的 处 理 器 多 。 因 而 
处 理 器 会 根据 一 个 调度 策略 在 运行 的 线程 之 间 进 行 多 路 复 用 ; 采用 无 优先 权 调 度 ， 运 行 的 线程 
执行 一 个 函数 可 能 会 将 其 阻塞 ， 或 相反 ， 释 放 其 处 理 器 。 采 用 有 优先 权 调 度 ， 运 行 的 线程 隐 式 
地 放弃 它 的 处 理 器 。 这 种 策略 通常 用 时 钟 中 断 实现 定期 的 中 断 ， 并 将 其 处 理 器 给 另 一 个 运行 中 
的 线程 。 份 额 是 线程 在 取得 优先 权 运 行 之 前 的 时 间 量 ， 线 程 取得 优先 权时 上 下 文 切换 (context 
switch ) 就 挂 起 当前 线程 ， 重 新 启动 另 一 〈 可 能 相同 ) 运行 线程 。 如 果 一 个 运行 的 线程 被 阻塞 ， 
也 会 发 生 无 优先 权 调度 的 上 下 文 切 换 。 如 果 Thread 接 口 的 实现 支持 ， 它 就 使 用 优先 权 。 

原子 行为 的 执行 没有 优先 权 ， 启 动 执行 原子 行为 的 线程 将 完成 该 行为 ， 不 会 被 另 一 线程 
中 断 。 如 果 线 程 调用 一 个 原子 函数 ， 该 调用 的 执行 就 不 会 被 中 斯 。 本 章 介 绍 的 大 多 数 函 数 必 
须 是 原子 函数 ， 这 样 才 可 以 预测 它们 的 结果 和 作用 ， 但 是 原子 函数 可 能 会 死 锁 ，Sem 接 口中 
的 同步 函数 就 是 个 例子 。 ` 

正如 最 后 两 段 内 容 所 述 ， 并 行 编程 有 它 自己 的 专业 术语 ,不 同 术语 经 常用 于 相同 概念 。 
lin, 线程 可 能 称 为 轻 量 进程 、 任 务 、 子 任务 或 微 任 务 ; 同步 机 制 可 能 称 为 事件 、 条 件 变量 
同步 资源 以 及 消息 。 





20.1.1 Thread 


Thread 接 口 导 出 一 个 异常 及 支持 线程 创建 的 函数 。 


(thread. hys 
&ifndef THREAD INCLUDED 
#define THREAD INCLUDED 
#include "except.h" 


define T Thread T 
typedef struct T *T; 


extern const Except T Thread Failed; 
extern const Except T Thread Alerted; 


extern int Thread init (int preempt, ...); 
extern T Thread new (int apply(void *), 
void *args, int nbytes, ...); 


extern void Thread exit (int code); 
extern void Thread alert(T t); 
extern T Thread self (void); 
extern int Thread join (T t); 
extern void Thread pause(void); 


fundef T 
fendif 
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对 此 接口 中 所 有 函数 的 调用 都 具有 原子 性 。 

Thread_init 初 始 化 线程 系统 ; 必须 在 调用 其 他 任何 函数 之 前 调用 该 函数 ， 在 Thread_init 
之 前 调用 此 接口 或 Sem 与 Chan 接 口 的 其 他 任何 函数 ， 或 多 次 调用 Thread_init 都 会 引发 可 检查 
的 运行 期 错误 。 

如 果 preempt 为 0，Thread_init 就 把 线程 系统 初始 化 为 仅 支持 无 优先 权 的 调度 ， 并 返回 1 。 
如 果 preempt 为 1， 线 程 系 统 就 初始 化 为 有 优先 权 调 度 。 如 果 支 持 优先 级 ，Thread_init 则 返回 
1; 否则 ， 系 统 初 始 化 为 无 优先 权 调 度 ， 且 Thread_init 返 回 0。 

一 般 客户 调用 程序 在 main 中 初始 化 线程 系统 。 例 如 ， 对 于 需要 优先 权 的 客户 调用 程序 ， 
main 通 常 具 有 如 下 的 形式 。 


int mainCint argc, char *argv[]) { 
int preempt; 


preempt = Thread init(1, NULL); 
assert(preempt == 1); 


Thread. exit(EXIT. SUCCESS) ; 
return EXIT. SUCCESS; 
} 
Thread_init 也 可 以 接受 依赖 于 实现 的 其 他 参数 ， 经 常山 名 称 - 数值 对 指定 。 例 如 ， 对 于 
支持 优先 权 的 实现 ， 
preempt = Thread init(1, "priorities", 4, NULL); 
会 把 线程 系统 初始 化 为 四 个 优先 级 。 未 知 的 可 选 参数 通常 都 被 忽略 掉 了 。 使 用 这 种 方法 的 实 
现 通 常 都 期 望 以 空 指针 作为 终止 参数 。 
正如 上 述 代码 模板 所 表明 的 ， 线 程 必须 调用 Thread_exit 结 束 运行 。 整 数 参数 是 个 退出 码 ， 
更 像 传 递 给 标准 库 中 exit 函数 的 那个 参数 。 可 能 在 等 待 调用 线程 消亡 的 其 他 线程 可 以 获得 这 
个 值 ， 参 见 下 文 说 明 。 如 果 系 统 中 只 有 一 个 线程 ， 调 用 Thread_exit 就 等 价 于 调用 exit。 
Thread_new 创 建新 线程 并 返回 它 的 线程 句柄 ,这 是 一 个 隐 式 指针 ;线程 句柄 被 传递 给 
Thread_self 。 新 线程 独立 于 它 的 创建 线程 而 运行 。 当 新 线程 开始 执行 ， 它 相当 于 执行 


void *p = ALLOC(nbytes) ; 
memcpy(p, args, nbytes); 
Thread exit(apply(p)); 


即 ，apply 调 用 的 参数 为 args 所 指向 的 nbytes 字 节 的 副本 ， 这 里 args 假 定 为 指向 新 线程 的 参数 
数据 。args 经 常 是 个 指向 结构 的 指针 ， 结 构 的 字段 保存 apply 的 参数 ，nbytes 是 那个 结构 的 大 
小 。 新 线程 开始 执行 时 异常 堆栈 为 空 : 它 并 不 继承 其 调用 线程 中 TRY-EXCEPT 语句 所 建立 
的 异常 状态 。 异 常 是 针对 线程 的 ;一 个 线程 里 执行 的 TRY-EXCEPT 语 句 不 能 影响 男 一 线程 
中 的 异常 。 

如 果 args 非 空 目 nbytes 为 零 ， 新 线程 的 执行 就 相当 于 执行 

Thread. exit(apply(args)); 
即 ，args 传 递 给 未 修改 的 apply 。 如 果 args 为 空 ， 新 线程 就 等 价 于 执行 
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Thread. .exit(apply(NULL)) ; 
apply 为 空 、 或 args 为 空 且 nbytes 为 负 时 引发 一 个 可 检查 的 运行 期 错误 。 如 果 args HZ, WB 
略 nbytes 。 

与 Thread_init 相 同 ，Thread_new 会 接受 针对 于 实现 的 其 他 参数 ， 常 由 名 称 - 数值 对 指定 。 

Thread. T t; 

t = Thread new(apply, args, nbytes, "priority", 2, NULL); 

就 是 个 例子 ， 它 创建 了 一 个 优先 级 为 2 的 新 线程 。 就 像 这 个 例子 所 说 明 的 ， 可 选 参数 应 当 终 
止 于 一 个 空 指针 。 

线程 的 创建 是 同步 的 : Thread_new 在 新 线程 创建 并 接收 到 其 参数 后 、 但 可 能 在 新 线程 开 
台 执 行 之 前 返回 。 如 果 Thread_new 由 于 资源 限制 而 不 能 创建 新 线程 则 会 引发 Thread_Failed 。 
例如 ， 实 现 可 能 会 限制 能 够 同时 存在 的 线程 数 ; 当 超过 这 个 限制 时 ，Thread_new 就 会 引发 
Thread Failed, 

Thread_exit(code) 结 束 调用 线程 的 执行 。 等 待 调 用 线程 终止 的 线程 (依靠 Thread_join ) 
可 以 重新 开始 ， 同 时 code 的 值 作为 每 个 重新 开始 的 线程 里 Thread_join 调 用 结果 返回 。 当 最 后 
一 个 线程 调用 Thread_exit， 整 个 程序 就 通过 调用 exit(code) 结 束 。 

Thread_join(t) 使 调用 线程 挂 起 直到 线程 t 调 用 Thread_exit 结 束 。 当 线 程 { 结 束 ， 调 用 线程 
就 重新 开始 ， 而 且 Thread_join 返 同 山 传递 给 Thread_exit 的 整数 。 如 果 t 给 不 存在 的 线程 命名 ， 
Thread_join 立 即 返 回 -1。 有 种 特殊 情况 ， Thread_join(NULL) 的 调用 会 等 待 所 有 线程 结束 ， 
包括 可 能 是 由 其 他 线程 创建 的 闭 些 线程 。 这 种 情况 下 ， Thread joing E0, {E7 的 t 给 调用 线 
程 命 名 ， 或 多 个 线程 指定 一 个 空 t， 都 是 一 个 可 检查 的 运行 期 错误 。 Thread_join 可 以 引发 
Thread, Alerted , 

Thread_self 返 回调 用 线程 的 线程 句柄 。 

Thread_pause 让 调用 线程 放弃 处 理 器 ， 如 果 有 线程 已 经 准备 好 运行 ， 就 供 另 一 准备 好 的 
线程 运行 。Thread_pause 主 要 用 于 无 优先 权 的 调度 ， 优先 权 调 度 不 需 要 调用 Thread_pause 。 

线程 有 三 种 状态 : 运行 、 阻 塞 及 消亡 ; 新 线程 从 运行 开始 。 如 果 它 调用 Thread_join ， 就 
变 成 阻塞 ， 等 待 另 一 线程 结束 。 当 一 个 线程 调用 Thread_exit , 它 就 消亡 了 。 线 程 调用 Chan 
导出 的 通信 隐 数 或 Sem 导 出 的 同步 孙 数 时 也 会 阻塞 ; 而 没有 运行 中 的 线程 就 会 引发 可 检查 的 
运行 期 错误 。 

Thread alert (t) REK “RREK” Eo WEE, ，Thread_alert 使 {可 运行 ， 并 为 
它 做 准备 以 清空 它 的 未 决 警示 标志 ， 在 它 下 次 运行 的 时 候 引 发 Thread_Alerted 。 如 果 t 已 经 运 
fr, ，Thread_ajlert 调 度 t 清 空 它 的 标志 , 并 在 下 次 它 调 用 Thread_ join 或 者 阻塞 通信 或 同步 函数 
的 时 候 引 发 Thread_Alerted 。 向 Thread_alert 传 递 空 句柄 或 不 存在 的 线程 句柄 将 引发 可 检查 的 
运行 期 错误 。 

运行 的 线程 无 法 终止 ;线程 必须 自行 结束 ， 或 者 通过 调用 Thread_exit， 或 者 通过 响应 
Thread_Alerted 。 如 果 线 程 没 有 捕 提 Thread_Alerted。 整 个 程序 将 终 目 于 一 个 未 捕获 的 异常 
错误 。 对 警告 的 最 常见 响应 就 是 终止 线程 ， 具 有 如 下 - 般 形 式 的 apply 函 数 可 以 终止 线程 。 
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int apply(void *p) { 
TRY 


EXCEPT (Thread Alerted) 

Thread. exit(EXIT. FAILURE) ; 
END TRY; 
Thread exit(EXIT SUCCESS); 


H 

TRY-EXCEPT 语 句 必 须 由 线程 本 身 执 行 。 诸 如 
Thread T t; 

TRY 


t = Thread. new(...5 ; 
EXCEPT(Thread. Alerted) 
Thread exit(EXIT. FAILURE) ; 


END TRY; 
Thread exit(EXIT. SUCCESS) ; 


的 代码 不 正确 ， 因 为 TRY-EXCEPT 应 用 于 调用 线程 ， 而 不 是 新 建 线程 。 


20.1.2 一 般 信 号 量 


一 般 信 号 量 或 底数 信号 量 是 低级 同步 原 语 。 理 论 上 ， 信 号 量 是 个 可 以 原子 性 地 增加 和 沽 
少 的 受 保护 整数 。 关 于 信号 量 s 的 两 个 操作 是 wait 和 signal。signal (s ) 逻辑 上 等 价 于 原子 性 
的 增加 ; wait (s ) 等 待 s 为 正 ， 然 后 再 进行 原子 性 的 消减 : 

while (s <= 0) 





S = s - 1; 
当然 ， 实 际 的 实现 会 阻塞 调用 线程 ; 它们 不 像 这 里 解释 的 那样 循环 。 
Sem 接 口 将 计数 器 封装 在 一 个 结构 中 ， 并 导出 一 个 初始 化 函数 以 及 两 个 同步 函数 : 


(sem.hys 
#ifndef SEM INCLUDED 
#define SEM INCLUDED 


#define T Sem T 
typedef struct T { 
int count; 

void *queue; 
} T; 


(exported macros 416) 


extern void Sem init (T *s, int count); 
extern T *Sem new Cint count); 
extern void Sem wait (T *s); 

extern void Sem signal(T *s); 


#undef T 
#endif 
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信号 量 是 指向 Sem_T 结 构 一 个 实例 的 指针 。 这 个 接口 揭示 了 Sem_T 的 内 部 结构 ， 而 且 还 
可 以 进行 静态 分 配 或 者 戏 人 到 其 他 结构 中 。 客 户 调用 程序 必须 将 Sem_I 当 作 一 种 隐 式 类 型 ， 
且 仅 能 通过 该 接口 中 的 函数 访问 其 值 所 在 的 字段 ;间接 访问 Sem_T 的 字段 是 个 不 可 检查 的 运 
行 期 错误 。 给 该 接口 的 任意 函数 传递 空 Sem_T 指 针 ， 将 会 引发 可 检查 的 运行 期 错误 。 

Sem_init 接 受 一 个 指向 Sem_T 的 指针 及 其 计数 器 的 初 值 ; 然后 初始 化 信号 量 的 数据 结构 ， 
并 将 其 计数 器 设 为 特定 的 初 值 。 一 旦 初始 化 ,指向 Sem_T 的 指针 可 以 传递 给 那 两 个 同步 函数 。 
同一 信号 量 上 多 次 调用 Sem_init 是 一 个 不 可 检查 的 运行 期 错误 。 

Sem new Æ 

Sem T *s; 

NEW(Ss) ; 

Sem init(s, count); 
的 等 价 原子 函数 ， 它 可 以 引发 Mem_Failed 。 

Sem_wait 接 受 一 个 指向 Sem_T 的 指针 ， 等 待 它 的 计数 器 变 为 正 数 ， 然 后 按 1 递减 计数 器 ， 
并 返回 。 这 个 操作 是 原子 操作 。 如 果 设 置 了 调用 线程 的 未 决 警示 标志 ，Sem_wait 就 会 立即 引 
发 Thread_Alerted， 且 不 减低 计数 器 。 如 果 线 程 阻塞 的 时 候 设 置 未 决 警示 标志 ， 线 程 就 不 再 
等 待 ， 并 引发 Thread_Alerted ， 且 不 减低 计数 器 。 调 用 Thread_init 之 前 调用 Sem_wait 是 个 可 
检查 的 运行 期 错误 。 

Sem_signal 接 受 一 个 指向 Sem_T 的 指针 并 原子 性 增加 计数 器 。 如 果 其 他 线程 在 等 待 计数 
器 变 为 正 数 ， 而 Sem_signal 使 它 为 正 ， 那 些 线程 的 其 中 一 个 就 会 完成 Sem_wait 的 调用 。 调 用 
Thread_init 之 前 调用 Sem_wait 是 个 可 检查 的 运行 期 错误 。 

向 Sem_wait 或 Sem_signal 传 递 未 初始 化 的 信号 量 是 个 不 可 检查 的 运行 期 错误 。 

Sem_wait 和 Sem_signal 操 作 中 隐 含 的 排队 过 程 是 先 人 先 出 ; 这 是 公平 的 。 也 就 是 说 ， 阻 
塞 在 信号 量 s 的 线程 将 在 ! 之 后 调用 Sem_wait (&s) 的 其 他 线程 之 前 重新 开始 。 

二 进 制 信号 量 互 斥 体 是 个 一 般 信号 量 ， 它 的 计数 器 旦 0 或 1。 互 斥 体 用 于 互 斥 现象 。 举 个 
例子 ， 


Sem T mutex; 
Sem init(&mutex, 1); 








Sem wai t(&mutex) ; 

statements 

Sem signal(&mutex) ; 
创建 并 初始 化 一 个 二 进 制 信 号 量 ， 并 用 它 确 保 某 一 时 刻 只 有 一 个 线程 在 执行 statement 语 句 ， 
这 是 临界 区 的 一 个 例子 。 这 个 术语 是 如 此 常用 ， 以 至 于 Sem 为 它 导 出 了 实现 具有 如 下 语法 的 
LOCK-END_LOCK 语 句 的 宏 ， 

LOCK (mutex) 


Statements 
END_LOCK 


这 里 mutex 是 个 初始 为 1 的 二 进 制 信号 量 。LOCK 语 句 有 助 于 避免 出 现 忘 记 在 临界 区 未 尾 调用 
Sem. signal 以 及 调用 具有 错误 信号 量 的 Sem_signal 这 样 的 常见 的 灾难 性 的 错误 。 
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(exported macros 416)= 
#define LOCK(mutex) do ( Sem T * yymutex = &(mutex); \ 
Sem wait( yymutex); 
define END LOCK Sem signal( yymutex); } while (0) 


如 果 statement 语 名 可 以 引发 异常 ， 那 么 一 定 不 能 使 用 LOCK-END_LOCK ， 因 为 如 果 发 生 异 
常 ，mutex 就 不 会 释放 了 了。 这 种 情况 下 ,正确 的 术语 是 


TRY 
Sem wait(&mutex); 
statements 
FINALLY 
Sem signal(&mutex) ; 
END, TRY; 
FINALLY 语 句 确保 了 不 管 是 否 有 异常 发 生 都 释放 mutex , 55 —1 4 38 A Jé YELOCK f 
END_LOCK 的 定义 中 结合 这 种 术语 ， 但 是 这 之 后 每 次 使 用 LOCK-END_LOCK 都 会 招致 
TRY-FINALLY 语句 的 系统 开销 。 
互 斥 信 叶 量 mutex 经 常 炭 在 ADT 中 保证 ADT 的 访问 是 线程 安全 的 。 例 如 ， 


typedef struct { 
Sem T mutex: 
Table T table; 

} Protected Table. T; 


mutex 5table4H2C EX, TY 


Protected Table T tab; 
tab.table = Table new(...); 
Sem init(&tab.mutex, 1); 


创建 了 一 个 受 保护 的 表 ; 
LOCK(tab.mutex) 
value = Table get(tab.table, key); 
END LOCK; 
原子 性 地 获取 与 key 相 关 的 值 。 请 注意 ，LOCK 接 收 mutex 而 非 其 地 址 。 因 为 Table_put 可 以 引 
发 Mem_Failed ， 所 以 tab 的 加 法 应 当 用 如 下 的 代码 实现 ; 


TRY 

Sem wait(&tab.mutex); 

Table put(tab.table, key, value); 
FINALLY 

Sem signal (&tab.mutex); 
END TRY; 


20.1.3 同步 通信 通道 


Chan 接 口 提 供 可 用 于 线程 之 问 传 递 数据 的 同步 通信 通道 。 


(chan.h)s 
#ifndef CHAN, INCLUDED 
#define CHAN, INCLUDED 
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fdefine T Chan T 
typedef struct T *T; 


extern T Chan. new (void); 
extern int Chan send (T c, const void *ptr, int size); 
extern int Chan, receive(T c, void *ptr, int size); 
#undef T 

#endif 


Chan_new 创 建 、 初 始 化 及 返回 一 个 新 通道 ， 这 是 个 指针 。Chan_new 可 以 引发 Mem_Failed 。 
Chan_send 接 受 一 个 通道 , 也 即 一 个 指向 保存 发 送 数据 及 缓冲 区 容纳 字 节 数 的 缓冲 区 的 指针 。 
调用 线程 一 直 等 待 ， 直 到 舅 一 线程 调用 具有 同一 通道 的 Chan_receive ;， 当 发 生 这 种 会 侣 时， 就 从 
发 送 方 处 将 数据 拷贝 到 接收 方 ， 然 后 两 个 函数 都 返回 。Chan_send 返 回 接收 方 接收 的 字 节 数 。 
Chan_receive 接 受 一 个 通道 ， 也 即 一 个 指向 保存 接收 数据 及 其 可 容纳 的 最 大 字 节 数 的 组 
冲 区 指针 。 调 用 者 一 直 等 待 直到 另 一 线程 调用 具有 同一 通道 的 Chan_send， 当 发 生 这 会 合 
时 ， 数 据 就 从 发 送 方 处 拷贝 到 接收 方 ， 然 后 两 个 函数 都 返回 。 如 果 发 送 方 提供 的 字 节 多 于 
size ， 多 出 的 字 节 就 被 舍 齐 了。Chan_receive 返 回 接受 的 字 节 数 。 
Chan_send 和 Chan_receive 都 接受 0 size 。 向 任 :函数 传递 空 Chan_T 、 空 ptr 或 负 size 都 会 
引发 可 检查 的 运行 其 错误。 如果 设 管 了 调用 线程 的 未 决 警示 标志 ，Chan_send 和 
Chan-receive 立 刻 就 会 引发 Thread_Alerted。 如 果 线 程 阻 塞 的 时 候 设 置 未 决 警示 标志 ,线程 
就 不 再 等 待 ， 并 引发 Thread_Alerted 。 这 种 情况 下 ， 数 据 可 能 传输 过 去 也 可 能 没有 传输 。 
调用 Thread_init 之 前 调用 这 个 接口 中 的 任 -一 函数 都 是 可 检查 的 运行 期 错误 。 


20.2 示例 


本 闻 的 三 个 程序 接受 了 线程 及 通道 的 简单 使 用 ， 以 及 互 斥 现象 信号 量 的 使 用 。 将 在 下 节 
详细 介绍 的 Chan 实 现 是 同步 信号 量 的 使 用 示例 。 


20.2.1 并 行 排序 


如 果 有 优先 权 ， 线 程 都 会 并 行 执行 ， 至 少 理论 上 是 这 样 。- 组 协同 操作 的 线程 可 以 处 理 
辣 题 的 各 个 独立 部 分 。 在 多 处 理 器 的 系统 上 ， 这 种 方法 使 用 并 发 性 减少 整体 的 执行 时 间 。 当 
然 ， 在 单 处 理 器 系统 上 ,这 个 程序 实际 上 运行 得 会 慢 一 点 ， 央 为 在 线程 间 切 换 需 要 系统 开销 。 
但 是 ,这 种 方法 的 确 说 明了 Thread 接 口 的 使 用 。 
排序 这 个 问题 很 容易 可 以 分 解 成 独立 的 子 部 分 。sort 生 成 特定 数量 的 随机 整数 ， 进 行 并 
行 排序 ， 然 后 检查 结果 排序 的 情况 ， 
(sort.c)« 
#include <stdlib.h> 
#include <stdio.h> 
#include <time.h> 


#include "assert.h" 
#include "fmt.h" 
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#include "thread.h" 
#include "mem.h" 


(sort types 421) 
(sort data 422) 
(sort functions 420) 


main(int argc, char *argv[1) { 
int i, n = 100000, *x, preempt; 


preempt - Thread init(1, NULL); 
assert(preempt -- 1); 
if (argc >= 2) 
n = atoi(argv[1]); 
x = CALLOC(n, sizeof (int)); 
srand(time(NULL)) ; 
for Gi = 0; i «n; i++) 
x[i] = randQ; 
sort(x, n, argc, argv); 
for (i21; i < n; i++) 
if (x(i] < x[i-1]) 
break; 
assert(i == n); 
Thread. exi t(EXIT. SUCCESS) ; 
return EXIT SUCCESS; 
H 


time 、srand 和 rand 是 标准 C 库 函数 。time 返 回 日 历时 间 一 些 必要 编码 ， 而 srand 将 使 用 这 些 纺 
码 设 置 用 于 生成 伪 随 机 数 序列 的 种 子 。 接 下 来 调用 rand 返 回 这 个 序列 中 的 随机 数 sort— F 
始 以 n 个 随机 数 填充 x[0..n-1]。 
函数 sort 是 快速 排序 的 一 个 实现 。 教 科 书 上 用 “中 心 ” 值 把 这 个 数组 分 成 两 个 子 数 组 ， 
然后 递归 调用 自身 排序 每 个 子 数 组 。 子 数组 为 空 时 递归 到 达 最 底 端 。 
void quickCint a[], int 1b, int ub) { 
if (1b < ub) { 
int k = partition(a, 1b, ub): 


quick(a, lb, k - 15; 
quick(a, k + 1, ub); 


} 


void sort(int *x, int n, int argc, char *argv[]) ( 
quick(x, 0, n - 1); 
} 
partition[a, i, j] 任 意 挑选 [让] 作为 中 心 值 ， 然 后 重新 安排 a[i..j] 的 位 置 ， 计 a[i..k-1] 中 的 所 
有 值 都 小 于 或 等 于 这 个 中 心 值 v ，a[lk+1..j] 中 的 所 有 值 都 大 于 v; Bakat, 
(sort functions 420)= 


int partition(int a[], int i, int j) { 
int v, k, t; 
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A Sg 
je 
k= 1; 
v = alk]; 


while Ci < j) { 
i++; while (a[i] « v && i < j) i++; 
j--; while (a[j] > v ) j--; 
if Ci <j) { t = afi]; afi] = alj]; a[j] = t; } 


} 
t = alk]; afk] = a[j]; alj] = t; 


return j; 
} 420 


partition 的 最 后 一 次 交换 把 v 留 在 a[k] 中 partition3& [Elk , 
对 quick 的 递归 调用 可 由 单独 的 线程 并 行 执 行 。 首 先 ，quick 的 参数 必须 打包 在 一 个 结构 
中 ， 这 样 quick 可 以 传递 到 Thread_new : 


(sort types 421)= 
struct args { 
int *a; 
int 1b, ub; 
}; 


(sort functions 420)+= 
int quick(void *cl) ( 
struct args *p = cl; 
int lb = p->1b, ub = p->ub; 


if Cb < ub) { 
int k = partition(p->a, lb, ub); 
(quick 421) 


} 
return EXIT_SUCCESS; 
} 


递归 调用 在 单个 线程 中 执行 ， 而 且 就 像 子 数 组 里 有 足够 的 元 素 值得 这 样 做 。 例 如 ， 
a[Ib..k-1] ix FE HE : 


(quick 421)s 
p-»lb = 1b; 
p->ub = k - 1; 
if Ck - 1b > cutoff) 1 

Thread_T t; 

t = Thread_new(quick, p, sizeof *p, NULL); 

Fmt print("thread %p sorted %d..%d\n", t, lb, k - 1); 
} else 

quick(p); 


这 里 cutoff 给 出 单个 线程 里 排序 所 需 的 最 少 元 素数 。 类 似 地 ，a[k+1..ub] 这 样 排序 : 421 


(quick 421)+= 
p->lb =k + 1; 
p->ub = ub; 
if Cub - k > cutoff) { 
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Thread T t; 

t = Thread new(quick, p, sizeof *p, NULL); 

Fmt print("thread Xp sorted %d..%d\n", t, k + 1, ub); 
} else 

quick(p); 


sort 最 先 调用 quick， 它 在 排序 进展 过 程 中 产生 很 多 线程 ， 然 后 调用 Thread_join 等 待 所 有 这 些 
线程 结束 : 


(sort data 422)= 
int cutoff - 10000; 


(sort functions 420)+= 
void sort(int *x, int n, int argc, char *argv[]) { 
struct args args; 


if (argc >= 3) 
cutoff = atoi(argv[2]); 
args.a = x; 
args.1b = 0; 
args.ub = n - 1; 
quick(&args) ; 
Thread, join(NULL) ; 
H 
按 n 和 cutoff 的 默认 值 100 000 F110 000 执 行 sort ， 产 生 18 个 线程 . 


?6 sort 

thread 69f08 sorted 0..51162 
thread 6dfeO sorted 51164..99999 
thread 72028 sorted 51164..73326 
thread 76070 sorted 73328..99999 
thread 6dfe0 sorted 51593..73326 
thread 72028 sorted 73328..91415 
thread 7a0b8 sorted 51593..69678 
thread 7e100 sorted 73328..83741 
thread 82148 sorted 3280..51162 
thread 69f08 sorted 73328..83614 
thread 7e100 sorted 51593..67132 
thread 6dfeO sorted 7931..51162 
thread 69f08 sorted 14687..51162 
thread 6dfeO sorted 14687..37814 
thread 72028 sorted 37816..51162 
thread 69f08 sorted 15696..37814 
thread 6dfeO sorted 15696..26140 
thread 76070 sorted 26142..37814 


不 同 的 执行 给 不 同 的 值 排序 ， 因 此 quick 每 次 执行 所 创建 的 线程 数量 及 打印 的 记录 数量 也 会 
不 同 。 

Sort 有 个 重要 的 漏洞 : 它 不 能 包含 quick 中 的 FEmt_print 调 用 。 不 能 确保 Fmt_print 可 以 再 
次 进入 ， 而 且 C 库 中 的 许多 例 程 都 是 不 可 再 次 进入 的 。 什 么 也 不 能 保证 printf 或 其 他 任 何 库 程 
序 中 断 以 后 再 重新 开始 仍 将 正确 运行 。 


& g 307 





20.2.2 临界 区 


在 有 优先 权 的 系统 中 任何 被 多 个 线程 访问 的 数据 都 必须 得 到 保护 。 访 问 必 须 限制 在 一 个 
临界 区 中 ， 这 个 区 域 中 一 次 只 允许 运行 一 个 线程 。spin 是 个 简单 的 范例 ,说 明了 访问 共享 数 
据 的 正确 方式 和 错误 方式 。 


(Spin.c)= 
#include «stdio.h» 
#include <stdlib.h> 
#include "assert.h" 
#include "fmt.h" 
#include "thread.h" 
#include "sem.h" 


#define NBUMP 30000 


(spin types 425) 
(spin functions 424) 


int n; 
int main(int argc, char *argv[]) { 
int m = 5, preempt; 


preempt = Thread init(1, NULL); 
assert(preempt == 1); 
if (argc >= 2) 
m = atoi(argv[1]); 
n = 0; 
(increment n unsafely 424) 
Fmt_print("%d == %d\n", n, NBUMP*m); 
n= 0; 
(increment n safely 425) 
Fmt_print("%d == %d\n", n, NBUMP*m); 
Thread exit(EXIT. SUCCESS) ; 
return EXIT. SUCCESS; 
] 


Spin 生成 m 个 线程 ， 每 个 都 递增 nDNBUMP 次 。 首 先生 成 的 m 个 线程 不 能 确保 n 是 原子 性 地 递增 ; 


(increment n unsafely 424)= 


int i; 
for (i20; i < m; i++) 
Thread new(unsafe, &n, 0, NULL); 
Thread, join(NULL); 
} 


main 创建 这 m 个 线程 ， 每 个 都 调用 ansafe ， 并 用 指针 指向 n 的 指针 : 


(spin functions 424)s 
int unsafe(void *cl) { 
int i, *ip = cl; 


423 


#20 F 





308 
for (i = 0; i < NBUMP; i++) 
*ip = *ip + 1; 
return EXIT_SUCCESS; 
424 } 


unsafe 是 不 正确 的 ， 因 为 *ip=*ip+1l 的 执行 可 能 会 被 中 断 。 如 果 恰 好 在 获取 *ip 之 后 被 中 断 ， 
而 且 其 他 线程 的 *ip 在 递增 ， 那 么 赋予 *ip 的 值 就 会 出 错 。 
第 二 批 生成 的 m 个 线程 调用 


(spin types 425 
Struct args { 
Sem_T *mutex; 
int *ip; 


}; 


(spin functions 424)+= 
int safe(void *cl) { 
struct args *p = cl; 
int i; 


for (i = 0; i < NBUMP; i++) 
LOCK (*p-»mutex) 
*p-»ip = *p-»ip + 1; 
END LOCK; 
return EXIT. SUCCESS; 
} 


safe 确 保 每 次 只 有 一 个 线程 在 执行 临界 区 ， 也 就 是 语句 *ip=*ip+1。main 初 始 化 所 有 线程 都 
用 以 在 safe 中 输入 临界 区 的 一 个 二 进 制 信号 量 : 


(increment n safely 425)= 


int i; 
struct args args; 
Sem T mutex; 
Sem init(&mutex, 1); 
args.mutex - &mutex; 
args.ip - &n; 
for (i = 0; i < m; i++) 
Thread. new(safe, &args, sizeof args, NULL); 
Thread join(NULL); 


} 
任何 时 候 都 会 发 生 抢占 ， 因 此 使 用 ansafe 的 线程 每 次 执行 spin 都 会 产生 不 同 的 结果 : 


% spin 

87102 == 150000 
150000 == 150000 
% spin 

148864 == 150000 
150000 == 150000 
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20.2.3 ”生成 素数 


最 后 一 个 例子 是 说 明 由 通信 通道 实现 的 管道 sieve N 计 算 并 打印 小 于 或 等 于 N 的 素数 。 
例如 : 
% sieve 100 


2357 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 
79 83 89 97 


sieve 实 现 了 计算 素数 的 著名 埃 拉 托 色 尼 筛 ， 其 中 每 个 “筛子 ”都 是 一 个 舍弃 了 它 的 素数 
倍数 的 线程 。 通 道 把 这 些 线程 连接 起 来 形成 一 个 管道 ， 如 图 20-1 所 示 。 源 线程 ( 白 框 ) 生成 
2 及 2 以 后 的 奇数 ， 并 将 它们 送 人 管道 。source 和 sink ( 暗 灰 色 框 ) 之 间 的 过 滤器 〈 浅 灰色 框 ) 
去 掉 它们 的 素数 倍数 ， 并 把 其 他 数 传递 出 去 。sink 也 会 过 滤 出 它 的 素数 ， 但 是 如 果 一 个 数 是 
通过 sink 的 过 滤器 得 到 的 ， 那 它 就 是 个 素数 。 图 20-1 中 的 每 个 方 框 都 是 个 线程 ; 框 中 的 数 也 
都 是 与 那个 线程 相关 的 素数 。 方 框 之 间 构 成 管道 的 直线 就 是 通道 。 


source filte filter sink 








图 20-1 一 个 素数 得 





sink 和 每 个 filter 里 放 有 n 个 素数 。 当 sink 收 集 到 n 个 素数 一 一 图 20-1 中 为 5 个 一 一 它 就 生成 自 
身 的 一 个 副本 并 转换 成 filter。 图 20-2 说 明了 sieve 计 算 100 以 内 包括 100 的 素数 时 ， 如 何 进行 扩展 。 


sieve 初 始 化 线程 系统 后 ， 就 为 source 和 sink 生 成 线程 ， 并 用 新 的 通道 将 它们 连接 起 来 ， 
然后 退出 : 


(sieve.c)s 
#include <stdio.h> 
#include <stdlib.h> 
#include "assert.h" 
#include "fmt.h" 
#include "thread.h" 
#include "chan.h" 


struct args { 
Chan. T c; 
int n, last; 


}; 
(sieve functions 429) 


int main(int argc, char *argv[]) 
struct args args; 


c^ 


Thread init(1, NULL); 
args.c = Chan_new(); 
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Thread new(source, &args, sizeof args, NULL); 
args.n = argc > 2 ? atoi(argv[2]) : 5; 
args.last = argc > 1 ? atoi(argv[1]) : 1000; 
Thread new(sink, ^ &args, sizeof args, NULL); 
Thread exit(EXIT. SUCCESS) ; 
return EXIT. SUCCESS; 

} 


source 把 整数 发 射 到 它 的 “输出 ”通道 ， 在 args 结 构 的 c 字 段 一 一 也 是 source 需 要 的 惟一 
426| ”字段 中 传递 ; 





427 source sink 
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图 20-2 100 以 内 素数 筛子 的 发 展 


(sieve functions 429)= 
int source(void *c1) { 
struct args *p = cl; 
int 7 = 2; 
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if (Chan .send(p-»c, &i, sizeof i)) 
for (i = 3; Chan send(p-»c, &i, sizeof i); ) 
i += 2; 
return EXIT_SUCCESS; 
} 
只 要 接收 方 接受 ，source 就 将 2 及 随后 的 奇数 发 送 过 来 。 一 旦 sink 打 印 出 所 有 的 素数 ， 就 从 它 


的 输入 通道 读 取 0 字 节 内 容 ， 给 上 流 过 滤器 发 送信 号 通知 它 作 业已 经 完成 且 终 止 了 。 每 个 
filter 的 工作 都 相同 ， 直 到 source 监 听 到 它 的 接收 方 读 取 0 字 节 内 容 并 终止 执行 。 

filter 从 它 的 输入 通道 读 取 整 数 并 向 它 的 输出 通道 写 人 潜在 的 素数 ， 直 到 接收 这 些 可 能 素 
数 的 线程 不 能 再 接收 为 止 : 


(sieve functions 429)+= 
void filter(Cint primes[], Chan.T input, Chan T output) { 
int j, x; 


for (35) { 

Chan.receive(input, &x, sizeof x); 

(x is a multiple of primes [0...] 429) 

if (primes[j] == 0) 

Jif (Chan send(output, &x, sizeof x) == 0) 
break: 

} 
Chan receive(input, &x, 0); 


} 
primes[0..n-1] 保 存 有 关 filter 的 素数 。 这 个 数组 以 0 结束 ， 因 此 搜索 循环 向 下 遍历 primes , 
直到 它 确 定 x 不 是 素数 或 遇 到 结束 符号 : 


(x is a multiple of primes[0...] 429)= 
for (j = 0; primes[j] != 0 && x%primes[j] != 0; j++) 





正如 上 述 代码 所 表明 的 ,搜索 结束 于 终止 符 0 时 就 失败 了 。 这 种 情况 下 ， x 可 能 是 个 素数 ， 
因此 还 要 把 它 送 入 输出 通道 发 送 给 另 一 filter 或 发 送 给 sink 。 

所 有 的 行为 都 在 sink 中 ; args 的 c 字 段 保存 了 sink 的 输入 通道 , n 字 段 给 出 了 每 个 filter 的 素 
数 数量 ; last 字 符 保存 N ， 这 是 期 望 的 素数 范围 ; sink 初 始 化 它 的 primes 数 组 并 监听 它 的 输入 : 


(sieve functions 429)+= 
int sink(void *cl) { 
struct args *p = cl; 
Chan_T input = p->c; 
int i = 0, j, x, primes[256]; 


primes[0] = 0; 
for (33) { 
Chan_receive(input, &x, sizeof x); 
(x is a multiple of primes[O...] 429) 
if (primes[j] == 0) { 
{x is prime 430) 


j 


430 
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H 
Fmt print("Xn"); 
Chan. receive(input, &x, 0); 
return EXIT. SUCCESS; 
} 
如 果 x 不 是 primes 中 一 个 非 零 数值 的 倍数 ， 那 它 就 是 个 素数 ， 然 后 sink 就 将 它 打 印 出 来 并 添加 
到 primes 中 。 


(x is prime 430)= 
if (x » p-»last) 
break; 
Fmt print(" %d", x); 
primes[i++] = x; 
primes[i] = 0; 
if (i == p-»n) 
(spawn a new sink and call filter 431) 


x 大 于 p->last 时 ， 所 有 期 望 的 素数 都 被 打印 出 来 了 ， 且 sink 可 以 结束 了 。 这 之 前 ， 它 会 等 竺 
来 自 于 其 输入 通道 中 的 多 个 整数 ， 但 是 读 取 0 字 节 ， 即 给 上 流 线 程 发 信号 通知 计算 完成 。 
sink 收 集 到 n 个 素数 后 就 把 自身 克隆 一 下 ， 并 变 成 还 需要 一 个 新 通道 的 filter: 


(spawn a new sink and call filter 431) 


i 
p-»c = Chan new); 
Thread new(sink, p, sizeof *p, NULL); 
filter(primes, input, p-»c); 
return EXIT. SUCCESS; 
H 


新 通道 变 成 副本 的 输入 通道 及 filter 的 输入 通道 。sink 的 输入 通道 即 filter 的 输入 通道 。filter 返 
同时 它 的 线程 就 退出 了。 

sieve 中 线程 之 间 的 所 有 切换 都 发 生 在 Chan_send 和 Chan_receive 中 ,而 且 总 是 至 少 有 一 
个 线程 可 以 运行 。 这 样 ，sieve 可 以 采用 有 优先 权 调 度 运行 ， 也 可 以 采用 无 优先 权 调 度 ; CE 
将 线程 主要 用 于 构造 一 个 应 用 程序 的 简单 范例 。 无 优先 权 线程 常 称 为 协同 程序 。 


20.3 实现 


Chan 的 实现 完全 可 以 紧 接着 Sem 的 实现 建立 ， 因 此 它 是 独立 于 机 器 的 。Sem 也 是 独立 于 
机 器 的 ， 但 它 还 依靠 Thread 实 现 的 内 部 结构 ， 因 此 Thread 也 实现 了 Sem。 单 处 理 器 的 Thread 
实现 很 大 程度 上 可 以 既 独 立 于 主机 也 独立 于 其 操作 系统 。 如 下 详细 介绍 ， 机 器 和 操作 系统 的 
相关 性 开始 莫 延 到 仅 用 于 上 下 文 切换 和 优先 权 的 代码 。 


20.3.1 同步 通信 通道 
Chan_T 是 指向 一 个 具有 三 个 信号 量 、 一 个 消息 指针 及 一 个 字 节 数 的 结构 的 指针 ;: 


(chan.c)« 
#include <string.h> 
#include "assert.h" 
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#include "mem.h" 
#include "chan.h" 
#include "sem.h" 


#define T Chan T 
struct T ( 
const void *ptr; 
int *size; 
Sem T send, recv, sync; 


(chan functions 432) 
创建 新 线程 的 时 候 ，ptr 和 size 字 段 还 未 定义 ， 信 和 号 量 send 、 recv 和 sync 的 计数 器 分 别 被 初始 
化 为 1、0 和 0. 


(chan functions 432)= 
T Chan new(void) { 
Tc; 


NEW(C) ; 

Sem init(&c-»send, 1); 
Sem init(&c-»recv, 0); 
Sem init(&c-»sync, 0); 
return c; 


} 
信号 量 send 和 recy 控 制 对 ptr 和 size 和 访问 ， 信 号 量 sync 确 保 消息 传递 按 Chan 接 口 所 指定 的 那 
样 同步 。 线 程 通过 填充 ptr 和 size 字 段 发 发 送 消息 ， 但 仪 在 这 样 做 很 安全 时 这 样 做 。 发 送 方 可 
以 设置 pt 和 size 时 send 为 1; 否则 为 0 一 一 例如 ， 在 接收 方 接收 消息 之 前 。 类 似 地 ，ptr 和 size 
具有 指向 一 条 消息 及 其 大 小 的 有 效 指 针 时 recvy 为 1 ; 否则 为 0 一 一 例如 ， 在 发 送 方 设置 了 ptr 和 
size 之 前 。send 和 recv 持 续 周 期 性 地 波动 ，recv 为 0 时 send 为 1; 反之 亦 然 。 接 收 方 成 功 将 消息 
拷贝 到 它 的 专用 缓冲 区 后 ，sync 为 1 。 
Chan_send 通 过 等 待 send 、 填 充 ptr 和 size 、 给 recv 发 信号 以 及 等 待 sync & 3X iti E : 432 
(chan functions 432)+= 
int Chan send(Chan T c, const void *ptr, int size) { 
assert(c); 
assert(ptr); 
assert(size »- 0); 
Sem wait(&c-»send); 
C-»ptr = ptr; 
c->size = &size; 
Sem_signal (&c->recv): 
Sem wait(&c-»sync); 
return size; 








) 
c->size 保 存 指向 字 节 数 的 指针 ， 这 样 接 收 方 可 以 修改 郑 个 计数 ， 由 此 通知 发 送 方 传递 了 多 
少 字 节 。Chan_receive 执 行 的 这 三 个 步骤 补充 了 Chan_send 完 成 的 那些 内 容 。Chan_receive 通 
过 等 待 recY、 将 消息 复制 到 它 的 参数 缓冲 区 并 修改 字 节 数 以 及 给 sync 和 send 发送 消 息 ， 
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(chan functions 432)+= 
int Chan receive(Chan T c, void *ptr, int size) { 
int n; 


assert(c); 
assert(ptr); 
assert(size »- 0); 
Sem wait(&c-»recv); 
n = *c-»size; 
if (size « n) 
n = size; 
*c-»size = n; 
if (n > 0) 
memcpy(ptr, c->ptr, n); 
Sem signal(&c-»sync); 
Sem signal(&c-»send); 
return n; p 


} 
433) n 是 实际 接收 到 的 字 节 数 ， 可 能 是 0。 这 段 代 码 处 理 所 有 三 种 情况 : 发 送 方 的 size 超 出 接收 方 
的 size 、 两 方 的 size 相 等 以 及 接收 方 的 size 超 出 了 发 送 方 的 size 。 


20.3.2 线程 


Thread 实 现 ，thread.c， 实 现 了 Thread 和 Sem 接 口 : 


(thread.c)ys 
#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include </usr/include/signal.h> 
#include «sys/time.h» 
#include "assert.h" 
#include "mem.h" 
#include "thread.h" 
#include "sem.h" 


void _MONITOR(void) {} 
extern void _ENDMONITOR(void): 


#define T Thread_T 
(macros 436) 

(types 435) 

(data 435) 

(prototypes 439) 
(static functions 436) 
{thread functions 438) 
#undef T 


#define T Sem_T 
(sem functions 457) 
#undef T 
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25 PREX. MONITOR 和 外 部 函数 ENDMONITOR 仅 用 于 它们 的 地 址 。 如 下 所 述 ， 这 些 地 址 包 
括 临界 区 一 一 千 万 不 能 中 断 的 线程 代码 。 这 段 代码 中 有 少量 是 用 汇编 语言 编写 的 ， 而 且 在 这 
个 汇编 语言 文件 的 末尾 定义 了 _ENDMONITOR ,这 样 临 界 区 也 包括 这 段 汇编 代码 。 它 的 名 
称 以 下 划 线 开始 ， 因 为 那 是 这 里 使 用 的 实现 定义 汇编 语言 名 称 的 惯例 。 
线程 句柄 是 指向 Thread_T 结 构 的 一 个 隐 式 指针 ， 包 含 了 确定 线程 状态 的 所 有 必要 信息 。 
这 个 结构 常 称 为 线程 控制 模块 。 
(types 435)= 
struct T ( 
unsigned long *sp; /* must be first */ 
(fields 435) 
最 初 的 字段 保存 依赖 机 器 和 操作 系统 的 数值 。 这 些 字 段 首 先 出 现在 Thread_T 结 构 中 ， 因 为 是 汇 
编 语 言 代码 访问 它们 。 首 先 放置 它们 可 以 更 容易 地 访问 这 些 字段 ， 而 且 还 可 以 添加 新 字段 而 不 
用 改变 现 有 汇编 语言 代码 。 只 有 一 个 字段 sp ， 大 多 数 机 器 都 需要 ， 它 保存 了 线程 的 堆栈 指针 。 
大 多 数 线程 操作 都 围绕 着 将 线程 排 人 队列 及 从 队列 中 移出 。Thread 和 Sem 接 口 设计 用 于 
维护 一 个 简单 的 不 变量 : 线程 没 在 队列 中 或 只 在 一 个 队列 中 ， 这 种 设计 可 以 避免 为 队列 入 口 
分 配 任何 空间 。 比 方 说 , 不 使 用 Seq_T 表 示 队列 ， 相 反 用 Thread_T 结 构 的 循环 链接 列表 表示 
队列 。 就 绪 队 列 就 是 个 例子 ， 它 保存 没有 获得 处 理 器 的 运行 线程 : 
(data 435)= 
static T ready - NULL; 


(fields 435)= 
T link; 
T *inqueue; 
图 20-3 显 示 了 就 绪 队 列 中 按 A、B 和 C 的 顺序 排列 的 三 个 线程 。ready 指 向 队列 中 的 最 后 一 个 
线程 C; 队列 通过 link 字 段 链 接 在 一 起 。 每 个 Thread_T 结 构 的 ingueue 字 有 段 指向 队列 变量 一 
这 里 是 ready 一 一 并 用 于 删除 队列 中 的 线程 。 队 列 变量 为 空 时 队列 为 充 ， 正 如 ready 的 初 值 所 
表明 以 及 宏 
(macros 436)= 
#define isempty(q) ((q) == NULL) 


测试 的 那样 。 
如 果 线 程 t 位 于 队列 中 ， 那 么 t->link 和 t->inqueue 就 不 为 空 ， 否 则 ， 这 两 个 字段 为 空 。 下 面 的 
队列 函数 使 用 了 包含 jink 和 inqueue 的 断言 以 确保 上 述 不 变量 有 效 。 例 如 ，put 把 一 个 线程 添 
加 到 一 个 空 队列 或 非 空 队列 的 末尾 : 
(static functions 436)= 
static void put(T t, T *q) { 
assert(t); 
assert(t->inqueue == NULL && t->link == NULL); 
if (*q) { 
t-»link = (*q)-»link; 
(*q)->link = t; 


434 


435 
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} else 

t->link = t; 
*q = t; 
t->inqueue = q; 


} 


这 样 ，put(t，&ready) 把 { 添 加 到 就 绪 队 列 末尾 。put 接 收 队 列 变量 的 地 址 ， 这 样 它 就 可 以 进行 


修改 : 调用 put(t, &q) 后 ，q 等 于 t 目 (->inqueue Fq, 


ready 


一 一 四 ^ 








link 


inqueue 


uu =) =) 


图 20-3 就绪 队列 中 的 三 个 线程 











get 从 给 定 队列 中 删除 第 一 个 元 素 : 


(static functions 436)+= 
static T get(T *q) { 
T t; 


assert(lisempty(*q)); 
t = (*g)-» link; 


if (t == *q) 

*q = NULL; 
else 

(*g)-»link = t->link; 
assert(t->inqueue == q); 


t->link = NULL; 
t->inqueue = NULL; 
return t; 


} 


这 段 代 码 使 用 inqueue 字 段 确 保 线程 的 确 在 q 中 ， 而 且 它 清除 了 link 和 inqueue 字 段 将 线程 标记 


为 不 在 任何 队列 。 
第 三 个 也 是 最 后 一 个 队列 函数 从 队列 中 线程 出 现 的 位 置 删除 该 线程 ; 
(static functions 436)+= 


static void delete(T t, T *q) { 
Tp; 


assert(t->link && t->inqueue == q); 
assert(!isempty(*q)); 
for (p = *q; p-»link !- t; p = p-»link) 
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if (p == t) 


*q = NULL; 
else { 
p-»link = t-»link; 436 
if (*q == t) 2 
*q = p; 437 
} 


t-»link = NULL; 
t->inqueue = NULL; 
} 


第 一 个 断言 确保 t 在 4 中 ; 第 二 个 确保 队列 非 空 ，t 在 队列 中 后 队列 必须 非 空 if iB ab Be Beg 
中 惟一 线程 的 情况 。 
Thread_init 创 建 “ 根 ”线程 ( 根 线 程 的 Thread_T 结 构 是 静态 分 配 的 ): 


(thread functions 438)= 
int Thread. init(int preempt, ...) { 
assert(preempt == 0 || preempt == 1); 
assert(current == NULL); 
root.handle = &root; 
current = &root; 
nthreads = 1; 
if (preempt) { 
(initialize preemptive scheduling 454) 
} 
return 1; 


} 


(data 435)+= 
Static T current; 
static int nthreads: 
static struct Thread_T root: 


(fields 435)+= 
T handle; 


current 是 当前 占据 处 理 器 的 线程 ; nthreads Jt CARMA, Thread new Hl 递增 
nthreads ; Thread_exit 逐 1 递减 。handle 字 段 仅 指 向 线程 句柄 并 帮助 检查 句柄 的 有 效 性 : 
仅 当 t 等 于 (~>handle 时 (确定 一 个 已 有 线程 。 

如 果 current 为 空 ， 就 还 没有 调用 Thread_init , 因此 ， 如 上 所 示 ， 对 空 current 的 检测 实现 
了 Thread_init 必 须 只 调用 一 次 的 可 检查 的 运行 期 错误 。 检 查 其 他 Thread 和 Sem 函 数 中 的 非 空 
current 实 现 了 Thread_init 必 须 在 其 他 任何 Thread 、Sem 和 Chan 函 数 之 前 调用 的 可 检查 的 运行 
期 错误 。Thread_self 是 个 范例 ， 它 仅 返 回 current ; 438 


(thread functions 438)+= 
T Thread. self(void) { 
assert(current); 
return current; 
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在 线程 之 间 切 换 需要 一 下 依赖 于 机 器 的 代码 ， 原 因 有 很 多 ， 例 如 每 个 线程 都 有 它 自 己 的 
堆栈 和 异常 状态 。 上 下 文 开关 原 语 有 众多 可 能 的 设计 ， 所 有 这 些 都 相对 很 简单 ， 因 为 它们 都 
是 全 部 或 部 分 用 汇编 语言 编写 的 。Thread 实 现 使 用 了 具体 于 实现 的 单一 原 语 


(prototypes 439)= 
extern void swtch(T from, T to); 


将 上 下 文 从 从 线程 from 切换 到 线程 to xx H from 和 to 是 指向 Thread_T 结 构 的 指针 。_swtch 与 
setjmp 和 longjmp 一 样 ， 当 线程 A 调用 _swtch 时 ， 假 定 控制 转移 给 线程 B。 当 B 调用 _swtch 让 A 
重新 开始 时 ，A 对 _swtch 的 调用 就 返回 了 。 这 样 ，A 和 B 都 把 _ swtch 完 全 当 作 另 一 函数 调用 。 
这 个 简单 的 设计 也 是 利用 了 机 器 的 调用 顺序 ， 这 非常 有 帮助 ， 例 如 它 有 助 于 在 A 切 换 到 B 时 
保存 A 的 状态 。 惟 一 的 不 足 就 是 创建 的 新 线程 必须 具有 一 个 状态 ， 看 上 去 好 像 调 用 了 _swtch ， 
因为 第 一 次 它 运行 的 时 候 会 被 作为 swtch 中 return 的 结果 。 

_swtch 只 能 在 一 个 地 方 调 用 ， 即 静态 函数 run : 

(static functions 436)+= 


static void run(void) { 
T t = current; 





current - get(&ready); 
t-»estack - Except. stack; 
Except. stack = current-»estack; 
.swtch(t, current); 
} 
(fields 435)+= 
Except_Frame *estack; 
run 从 当前 执行 的 线程 切换 到 就 绪 队 列 的 顶部 线程 。 它 将 最 上 面 的 线程 从 ready 中 删除 ， 设 置 
current ， 并 切换 到 新 线程 。estack 字 段 保存 着 指向 位 于 线程 异常 堆栈 顶部 的 异常 结构 的 指针 ， 
而 且 run 注 意 更 新 Except 的 全 局 Except_stack ，4.2 节 页 介绍 了 这 个 变量 。 
可 以 引起 上 下 文 切 换 的 所 有 Thread 和 Sem 函数 都 调用 run ， 而 且 它 们 在 调用 run 之 前 将 当 
前 线程 置 和 人 ready 或 另 一 适当 的 队列 。Thread_pause 是 个 最 简单 的 例子 ; 它 将 current 置 人 
ready ， 然 后 调用 run 。 


(thread functions 438)+= 
void Thread pause(void) { 
assert(current); 
put(current, &ready); 
rund); 





} 
如 果 只 有 一 个 线程 在 运行 ，Thread_pause 就 把 它 置 人 ready ， 而 run 将 其 删除 并 切换 到 这 
个 线程 。 这 样 ，_swtch(t, 日 必须 正常 工作 。 几 20-4 描 述 了 执行 如 下 调用 的 线程 A、B 与 C 之 间 
的 上 下 文 开 关 ， 假定 A 最 先 占有 处 理 器 日 ready 按 顺序 保存 B 和 C 。 
A B C 
Thread. pause () Thread pause() Thread pause() 


Thread. join(C) Thread. exit(0) Thread. exit(0) 
Thread exit(0) 
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83 [8j A B C 


Thread. pause() ] IC A] 


_swtch(A, B) 
Thread pause() 
_swtch(B,C) | [A B] 
Thread pause(Q) 
[^ cl _swtch(C, A) 
Thread. join(C) Ic] 
_swtch(A,B) 
Thread, exit(0) E 
.Swtch(B, C) 
Thread exit(0) 
(i _swtch(C, A) 
Thread. exit(0) 
exit(0) 


图 20-4 三 个 线程 之 问 的 上 下 文 切换 


图 20-4 中 的 垂直 实 线 箭头 表示 的 是 每 个 线程 都 拥有 处 理 句 时 的 情况 ， 水 平 虚线 箭头 是 上 
下 文 开关 ; 就 绪 队 列 显示 在 实 线 箭 头 旁 边 的 括号 里 。Thread 函数 及 其 引起 的 _swtch 调 用 出 现 
每 个 上 下 文 开 关 的 下 面 。 

当 A 调 用 Thread_pause 时 ， 就 将 它 放 人 ready ， 并 删除 B ， 然 后 B 获 得 处 理 器 。 当 B 运 行 的 
时 候 ，ready 保 存 C、A。 当 B 调 用 [Thread_pause 时 ， 就 从 ready 中 删除 C， 然 后 C 获 得 处 理 器 , 
ready 保 存 A、B。C 调 用 Thread_pause 之 后 ，ready 再 次 保存 B、C， 而 A 止 在 运行 。 当 A 调用 
Thread_join(C)， 它 因 C 的 结束 而 阻塞 ， 央 此 处 理 器 交付 给 ready 中 的 第 一 位 线程 B。 

此 时 ，ready 中 只 有 C， 因 为 A 位 于 C 的 相关 队列 中 。 当 B 调 用 Thread_exit 时 ，run 切 换 到 C 
月 ready 为 空 。C 调 用 Thread_exit 而 结束 运行 ， 这 使 得 A 作为 C 的 结束 结果 被 放 回 到 ready 中 。 
这 样 ， 当 Thread_exit 调 用 run 时 ，A 获 得 处 理 器 。 但 是 ，A 调 用 Thread_exit 不 会 引起 上 下 文 转 
换 : A 是 系统 中 的 惟一 线程 ， 隐藏 Thread_exit 调 用 exit。 

当 ready 为 空 且 调用 了 run 时 发 生死 锁 ; 也 就 是 说 ， 没 有 运行 中 的 线程 。 死 锁 是 个 可 检查 
的 运行 期 错误 ， 当 空 的 就 绪 队 列 调用 get 时 能 够 检测 到 死 锁 。 

Thread_join 和 Thread_exit 找 述 了 包含 “加 入 队列 ”的 队列 操作 和 就绪 队 列 。 有 两 种 样式 
的 Thread_join: Thread_join(t) 等 待 线程 结束 并 返回 t 的 退出 码 传递 给 Thread_exit 的 值 
t; { 一 定 不 能 是 调用 线程 。Thread_join(NULL) 等 待 所 有 线程 结束 并 返回 0; 只 有 一 个 线程 可 
LAVA FjThread join(NULL), 





(thread functions 438)+= 
int Thread. join(T t) { 
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assert(current && t != current); 
testalert(); 
if Ct) { 
(wait for thread t to terminate 442) 
} else { 
(wait for all threads to terminate 443) 
return 0; 
} 


} 
如 下 所 述 ， 如 果 调用 线程 被 警告 ，testalert 就 会 引发 [hread_Alerted 。 当 t 非 空 并 且 指 的 是 一 个 已 
有 线程 ， 调 用 线程 就 把 自身 放 和 人 t 的 合并 队列 中 等 待 它 的 消亡 ; 否则 ，Thread_join 立 刻 返回 -1。 
(wait for thread t to terminate 442)= 
if (t->handle == t) { 
put(current, &t->join); 
rund); 
testalert(); 
return current->code; 
] else 
return -1; 


(fields 43s) 
int code; 
T join; 
只 有 t->handle 等 于 t 时 t 才 表示 已 有 线程 。 如 下 所 示 ， 当 线程 结束 时 Thread_exit 清 除 handle 字 段 。 
当 ! 结 束 时 ，Thread_exit 在 把 那些 线程 移 到 就 绪 队 列 的 同时 ， 将 它 的 参数 保存 在 F>join 中 每 个 
Thread TI 的 code 字 段 中 。 这 样 ， 当 那些 线程 再 次 执行 的 时 候 ， 就 可 以 方便 地 获得 那个 退出 码 了 。 
当 t 为 空 时 ， 调 用 线程 放 人 join0，join0 保 存 着 等 待 其 他 所 有 线程 结束 的 那个 惟一 线程 : 
(wait for all threads to terminate 443y« 
assert(isempty(join0)); 
if (nthreads > 1) ( 
put(current, &join0); 
run(); 


testalertQ); 
} 


(data 435)+= 
static T joinO0; 


下 次 调用 线程 运行 的 时 候 ， 它 就 是 惟一 存在 的 线程 。 这 段 代码 也 处 理 调用 线程 是 系统 中 惟一 
线程 时 的 情况 ，nthreads 为 1 时 发 生 这 种 情况 。 

Thread_exit 需 要 完成 大 量 的 工作 : 它 必须 释放 与 调用 线程 相关 的 资源 ， 重 新 运行 等 待 调 
用 线程 结束 的 线程 并 安排 它们 获取 退出 码 ， 以 及 检查 调用 线程 是 否 为 系统 的 倒数 第 二 个 或 最 
后 一 个 线程 。 


(thread functions 438)+= 
void Thread exit(int code) { 
assert(current); 
release(); 


321 


A S 
if (current != &root) { 
current-»next = freelist; 
freelist - current; 
} 


current->handle = NULL; 
{resume threads waiting for current’s termination 444) 
(run another thread or exit 444) 


} 


(fields 435)+= 
T next; 443 


(data 435)+= 
static T freelist; 


对 release 的 调用 及 把 current 附 加 到 freelist 未 尾 的 那 段 代码 共同 合作 释放 调用 线程 的 资源 ， 下 
面 将 详细 叙述 。 如 果 调 用 线程 为 根 线程 ， 它 的 存储 空间 一 定 不 能 释放 ， 因 为 那 部 分 空间 是 静 
态 分 配 的 。 

清除 handle 字 段 就 把 线程 标记 为 不 存在 的 ， 而 且 那 些 等 待 消亡 的 线程 现在 可 以 重新 开始 了 ， 


(resume threads waiting for current's termination 444)= 
while (!isempty(current->join)) { 
T t = get(&current->join); 
t->code = code; 
put(t, &ready); 





) 


调用 线程 的 退出 码 被 复制 到 等 待 线程 中 Thread_T 结 构 的 code 字 段 ， 这 样 就 可 以 释放 current 了 。 
如 果 仅 有 两 个 线程 且 其 中 一 个 在 join0 中 ， 那 么 那个 等 待 线程 现在 可 以 重新 开始 。 


~ (resume threads waiting for current's termination 444) 
if C!isempty(join0) && nthreads == 2) { 
assert(isempty(ready)); 
put(get(&join0), &ready); 


断言 有 助 于 检测 维护 nthreads 和 ready 过 程 中 的 错误 ， 如 果 join0 非 空 日 nthreads 为 2， 那 么 
ready 必 须 为 空 ， 因 为 两 个 现存 线程 中 的 一 个 位 于 join0， 且 另 一 个 在 执行 Thread_exit 
Thread_exit 以 nthreads 递 减 并 调用 库 函 数 exit 或 运行 另 一 线程 作为 结束 : 
(run another thread or exit 444)= 
if (--nthreads == 0) 
exit(code); 
else 
runO; 444 


Thread_alert 在 线程 的 Thread_T 结 构 中 设置 标志 ， 而 且 ， 如 果 线 程 位 于 队列 中 ， 就 从 队 
列 中 删除 它 ， 从 而 将 线程 标记 为 “alerted”，, 


(thread functions 438)+= 
void Thread alert(T t) ( 
assert(current); 
assert(t && t->handle == t); 
t-»alerted - 1; 
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if (t->inqueue) { 
delete(t, t->inqueue); 
put(t, &ready); 
H 
} 


(fields 435)+= 
int alerted; 


Thread_alert 本 身 不 能 引发 Thread_Alerted ， 因 为 调用 线程 的 状态 与 不 同 。 线 程 必须 引发 
Thread_Alerted 并 自己 解决 ， 这 就 是 testalert 的 目的 : 


(static functions 436)+= 
static void testalert(void) { 
if Ccurrent->alerted) { 
current->alerted = 0; 
RAISE (Thread_Alerted); 





} 


(data 435)+= 
const Except_T Thread Alerted = { "Thread alerted" ); 


无 论 何 时 ， 只 要 线程 被 阻塞 或 阻塞 之 后 重新 开始 ， 就 调用 testalert 。 已 述 Thread_join 开 
始 的 调用 testalert 说 明了 前 面 那 种 情况 ; 后 面 一 种 情况 常 发 生 在 调用 run 之 后 ， 代 码 块 <wait 
for thread t to terminate 442> 和 <wait for all threads to terminate 443> 中 的 testalert 调 用 对 这 
种 情况 进行 说明。Sem_wait 和 Sem_signal 中 出 现 了 类 似 的 用 法 ; 参见 20.3.5 节 , 


20.3.3 ”线程 创建 与 上 下 文 转换 


最 后 一 个 Thread 函 数 是 Thread_new。 一 些 Thread_new 是 依赖 于 机 器 的 ， 因 为 它 与 swtch 交 互 ， 
但 是 大 多 数 几 乎 都 是 独立 于 机 器 的 。Thread_new 有 四 项 任务 ;为 新 线程 分 配 资 源 ; 初 始 化 新 线程 
的 状态 ， 这 样 它 就 可 以 通过 _swtch 的 返回 开始 运行 ; 递增 nthreads 以 及 将 新 线程 附加 到 ready 末 尾 。 


(thread functions 438)+= 
T Thread new(int apply(void *), void *args, 
int nbytes, ...) { 
T t; 


assert(current); 
assert(apply); 
assert(args && nbytes >= 0 || args == NULL); 
if (args == NULL) 

nbytes = 0; 
(allocate resources for a new thread 446) 
t->handle = t; 
(initialize t's state 449) 
nthreads++; 
put(t, &ready); 
return t; 
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在 这 个 Thread 的 单 处 理 器 实现 中 ， 一 个 线程 需要 的 惟一 资源 就 是 Thread_T 结 构 和 一 个 堆栈 。 
Thread_T 结 构 和 一 个 16K 字 节 的 堆栈 都 是 在 一 次 调用 Mem 的 ALLOC 中 分 配 的 : 


(allocate resources for a new thread 446)= 
{ 

int stacksize = (16*1024+sizeof (*t)+nbytes+15)&~15; 

release(Q); 

(begin critical region 447) 

TRY 
t = ALLOC(stacksize) ; 
memset(t, 'NO', sizeof *t); 

EXCEPT (Mem, Failed) 446 
t = NULL; 

END TRY; 

(end critical region 447) - 

if (t == NULL) 
RAISE(Thread Failed); 

(initialize t’s stack pointer 448) 


} 


(data 435) 
const Except T Thread Failed = 
{ "Thread creation failed" }; 


这 段 代码 比较 复杂 ， 央 为 它 必须 维护 几 个 不 变量 ， 其 中 最 重要 的 足 一 定 不 能 中 断 Thread 函数 的 调 
用 。 两 种 机 制 共 同 合作 维护 这 个 不 变量 : 一 个 如 下 所 述 ， 处 理 控制 位 于 Thread 函数 中 时 的 中 断 ; 
另 一 个 机 制 处 理 当 控 制 位 于 Thread 函 数 调用 的 例 程 时 的 中 断 ， 对 ALLOC 和 memset 的 调用 就 说 明 
了 这 种 情况 。 这 些 各 种 各 样 的 调用 都 被 通过 递增 和 递减 critical 确 定 临界 区 的 代码 块 括 在 一 起 : 


(begin critical region 447)= 
do { critical; 


(end critical region 447)= 
critical--; } while (0); 


(data 435)+= 
static int critical; 


如 20.3.4 节 中 所 示 ， 忽 略 critical 非 零 时 发 生 的 中 断 。 
Thread_new 必 须 捕 提 Mem_Failed ， 并 在 完成 临界 区 之 后 引发 它 的 异常 Thread_Failed 。 
如 果 它 没有 捕捉 这 个 异常 ， 就 会 将 控制 传递 给 调用 者 的 异常 管理 者 JP critical BW KAI 
减 的 一 个 正 数 。 
Thread_new 假 定 堆栈 向 低 端 地 址 发 展 ， 并 像 图 20-5 中 所 示 那 样 初始 化 sp 字段 ;项 部 的 阴 
影 框 是 Thread_T 结 构 ， 底 部 的 那个 是 args 的 副本 以 及 初始 帧 ， 如 下 所 示 。 447! 
(initialize t's stack pointer 448)= 
t->sp = (void *)((char *)t + stacksize); 


while (((unsigned Jong) t->sp)&15) 
t->sp--; 
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赋予 stacksize 的 值 以 及 这 段 代码 表明 ，Thread_new 初 始 化 堆栈 指针 ， 将 它 的 序列 界限 设置 为 
16 字 节 ， 这 对 大 多 数 平台 者 适用。 大 多 数 机 器 都 需要 4 字 节 或 8 字 节 的 堆栈 序列 , 但 是 DEC 
ALPHA 需 要 16 字 节 的 序列 。 | 
Thread, new Mi release F 16, ，Thread_exit 也 调用 这 个 函数 。Thread_exit 不 能 释放 当前 
线程 的 堆栈 ， 因 为 它 正 在 使 用 这 个 堆栈 。 因 此 ， 它 把 这 个 线程 句柄 添加 到 freelist， 并 将 释放 
工作 延迟 到 下 次 调用 release 的 时 候 ; 
(static functions 436)+= 
static void release(void) { 
Tt; 
(begin critical region 447) 
while ((t = freelist) !- NULL) { 
freelist = t-»next; 
FREE 人 tt) ; 
H 


(end critical region 447) 


} 
release 的 使 用 更 常见 ， 不 只 是 在 需要 的 时 候 : freelist 仪 有 一 个 元 素 ， 因 为 Thread_exit 和 
Thread_new 都 要 调用 release 。 如 果 仪 有 Thread_new 调 用 过 release ， 死 亡 的 Thread_T 就 会 在 
freelist 堆 积 。release 使 用 了 临界 区 ， 因 为 它 要 调用 Mem 的 FREE , 

其 次 ，Thread_new 初 始 化 新 线程 的 堆栈 以 保存 自 args 开 始 的 nbytes 字 节 副 本 以 及 要 将 线 
程 显 示 成 好 像 已 经 调用 过 swtch 所 需要 的 结构 帧 ; 后 者 的 初始 化 依赖 于 机 器 。 

(initialize t’s state 449)= 

if (nbytes > 0) { 


t->sp -= ((nbytes + 15U)&-15)/sizeof (*t->sp); 
(begin critical region 447) 


} 


memcpy(t->sp, args, nbytes); 
(end critical region 447) 
args = t->sp; 


#if alpha 
{ (initialize an ALPHA stack 463) } 
#elif mips 
{ (initialize a MIPS stack 461) } 
#elif sparc 
{ (initialize a SPARC stack 452) | 
#else 
Unsupported platform 
#endif 


图 20-5 所 示 的 堆栈 底 


融会 贯通 _swtch 的 汇编 语言 实现 之 


(swtch. s)= 
#if alpha 
(ALPHA swtch 462) 
(ALPHA startup 463) 
#elif sparc 
(SPARC swtch 450) 
(SPARC startup 452) 
#elif mips 
(MIPS swtch 460) 
(MIPS startup 461) 
#else 
Unsupported platform 
#endif 


—Swich (from, to) 必须 保存 from 的 状态 ， 恢 复 to 的 状态 ， 并 从 to 的 最 近 一 次 调用 返回 到 
-swtch 以 继续 执行 to 。 调 用 规范 保存 了 大 部 分 状态 ， 因 为 通常 它们 规定 必须 保存 调用 中 的 一 
些 寄 存 器 值 ， 但 不 用 保存 条 件 码 这 样 一 些 机 器 状态 信息 。 内 此 ， -Swtch 仅 保存 了 它 需 要 但 不 
受 调用 规范 支持 的 状态 一 一 例如 返回 地 址 一 一 而 且 它 可 以 在 调用 线程 的 堆栈 中 保存 这 些 值 。 
最 容易 的 ， 因 为 SPARC 调 用 规范 要 给 每 个 函数 提供 它 自己 的 “ 寄 
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部 描述 了 这 些 初始 化 的 结构 较 暗 的 阴影 表示 的 是 依赖 于 机 器 的 结构 
帧 ， 较 浅 的 阴影 是 args 的 副本 。thread.c 和 swtch.s 是 本 书 中 使 用 条 件 编译 的 惟一 模块 。 


SPARC_swtch 可 能 是 


存 器 窗口 ” 


BO F.H 


^O ci 





后 ， 堆 栈 的 初始 化 就 更 易于 理解 了: 


以 保存 所 有 的 寄存 器 ; 它 惟一 必须 保存 的 寄存 器 是 帧 指针 及 返回 地 址 。 


(SPARC swtch 450)= 
__swtch 


-global 
.align 
.proc 


—_swtch: 


*SP ,-(8+64) ,%sp 
%fp, [%sp+64+0] 
%i7,[%sp+64+4] 
3 

%sp, [9610] 
[%71],%sp 
[%sp+64+0] ,%fp 


! save from's frame pointer 
! save from's return address 
! flush from's registers 

! save from's stack pointer 

! load to's stack pointer 

! restore to's frame pointer 


449 





8 ld [%sp+64+4] ,%17 !restore to's return address 
9 ret ! continue execution of to 
10 restore 


上 面 的 行 编号 用 于 确定 下 面具 体 说 明 所 针对 的 非 样本 行 ， 它 们 不 属于 汇编 语言 代码 。 根 据 管 
PE, 汇编 语言 名 称 都 以 下 划 线 作为 前 级 ， 央 此 在 SPARC 的 汇编 语言 中 _swtch 就 称 为 _ swtch 。 

图 20-6 显示 了 _swtch 的 帧 结构 ; 所 有 的 SPARC 帧 顶部 至 少 有 64 字 节 供 操作 系统 在 必要 
的 时 候 存储 寄存 器 窗口 。_swtch72 字 节 帧 中 的 另 两 个 字 存 放 的 是 已 有 的 帧 指针 和 返回 地 址 。 


















-- 96sp 
64 字 节 216 个 字 
已 有 的 帧 指针 _ %sp+64 
返回 地 址 -一 %sp+68 





图 20-6 _swtch HERR WL 的 布局 


-Swtch 中 行 1 为 _swtch 分 配 了 堆栈 帧 。 行 2 和 行 3 保 存 from 的 帧 指针 (名 印 ) 并 返回 新 帧 中 
81781184 321/57. ( 偏 移 量 位 64 和 68 ) 中 的 地 址 ( 9%i7 )。 行 4 执行 了 一 个 系统 调用 将 from 的 
寄存 器 窗口 “冲刷 ”到 堆栈 ， 为 了 能 够 继续 运行 to 的 寄存 器 窗口 这 是 必要 的 。 这 个 调用 效果 
不 好 : 用 户 级 线程 几 个 假定 的 优点 之 一 就 是 上 下 文 切换 不 需要 核心 干预 。 但 是 在 SPARC 是 
只 有 核心 可 以 刷洗 寄存 器 窗口 。 

行 5 将 from 的 堆栈 指针 保存 在 它 Thread_T 结 构 的 sp 字段 中 。 该 指令 说 明 了 为 什么 那个 字段 
要 在 第 一 位 : 这 段 代 码 独立 于 Thread_T 的 大 小 及 其 他 字段 的 位 署 。 行 6 是 斜体 字 因 为 它 是 实 
际 的 上 下 文 开关 。 这 条 指令 把 to 的 堆栈 指针 装载 到 %sp ， 堆 栈 指针 寄存 器 。 然后 _swtch 在 to 
的 堆栈 上 执行 。 行 7 和 行 8 恢复 to 的 帧 指针 并 返回 地 址 ， 内 为 %sp 现 在 指向 to 堆栈 的 质 端 。 行 9 
和 行 10 包 含 了 正常 的 函数 返回 顺序 ， 且 控制 继续 位 于 to 最 后 一 次 调用 _swtch 时 保存 的 地 址 。 

Thread_new 必 须 为 swtch 创 建 帧 ， 这 样 其 他 一 些 对 _swtch 的 调用 可 以 正确 返 回 并 开始 运 
行 新 的 线程 ; 该 运行 必须 调用 apply 。 图 20-7 显 示 了 Thread_new 所 建立 的 内 容 ;_swtch 的 由 
在 堆栈 顶端 ; 帧 下 面 就 是 如 下 的 启动 代码 。 





(SPARC startup 452)= 
.global _ start 
.align 4 
.proc 4 
1 —sStart: ld [%sp+64+4] ,9600 
2 ld [%sp+64] ,%o1 
3 call %ol; nop 
4 call _Thread_exit; nop 
5 unimp 0 
-global | ENDMONITOR 
——ENDMONITOR: 


-Swtch 帧 中 的 返回 地 址 指向 _start ， 启 动 帧 存放 着 apply 和 args ， 如 图 20-7 所 示 。_swtch 第 一 
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次 返回 时 ， 控 制 到 达 _start (XX BIC A [ARS PIU start). Ja aM RS OTL args $ RE 2600 , 
根据 SPARC 调用 规范 ，%o0 用 于 传递 第 一 个 参数 。 行 2 把 apply 的 地 址 装载 到 %ol ， 其 他 时 候 
都 不 使 用 %o1; 行 3 间接 调用 了 apply 。 如 果 apply 返 回 ， 它 的 退出 码 就 会 在 %o0 中 ， 这 样 其 
中 的 值 就 会 传 给 从 不 返回 的 Thread_exit。 行 5 应 当 永 不 执行 ;如 果 执 行 就 会 引起 一 个 错误 。 
下 面 就 ENDMONITOR 进行 了 说 明 。 
-Swtch 和 _start 中 的 这 15 行 汇编 语言 是 SPARC 上 需要 的 全 部 内 容 ; 如 图 20-7 中 所 示 那 样 
初始 化 新 线程 的 堆栈 可 以 完全 用 C 实 现 。 如 下 所 示 ， 这 两 个 帧 都 是 从 下 往 上 建立 的 。 
(initialize a SPARC stack 452)= 
int i; void *fp; extern void _Start(void); 
for (i20; i < 8; i++) 
*--t-»sp = 0; 
*--t-»Sp = (unsigned long)args; 452 
*--t-»sp = (unsigned long)apply; 
t-»sp -= 64/4; 
fp = t-»sp; 
*--t-»sp - (unsigned long) start - 8; 
*--t-»sp = (unsigned long)fp; 
t->sp -= 64/4; 


= COn OY BWR 一 


o 


一 下 一 一 


_swtch WX 








图 20-7 SPARC E ÉI IRI] swtchibi 


行 2 和 行 3 在 启动 帧 底部 创建 了 8 个 字 。 行 4 和 行 5 把 args 和 apply 的 值 推 人 堆栈 ; 行 6 在 启动 帧 
的 顶部 分 配 了 64 字 节 。 这 个 地 方 的 堆栈 指针 是 _swtch 必须 恢复 的 帧 指 壬 ， 因此 行 7 把 这 个 值 
保存 在 印 中 。 行 8 将 返回 地 址 一 HiT 中 保存 的 值 推 人 堆栈 。 返回 地 址 是 _start 前 面 的 8 个 字 节 ， 
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因为 SPARC ret 指 令 在 返回 时 向 %i7 中 的 地 址 加 了 8。 行 9 将 %fp 中 保存 的 值 推 和 堆栈; 1110 


以 _swtch 帧 顶端 的 64 个 字 节 作为 结束 。 

如 果 apply 是 个 接收 不 定量 参数 的 函数 ， 它 的 入 口 顺 序 就 将 %o0 至 %o5 中 的 值 保存 到 堆 
栈 调 用 方 帧 即 启动 帧 的 偏 移 64 至 88 的 位 置 。 行 2 和 行 3 用 于 分 配 这 段 冠 间 及 另外 的 8 个 字 节 ， 
这 样 堆栈 指针 保持 按 8 字 节 的 界限 排列 ， 参 见 SPARC 硬 件 说 明 。 

MIPS 和 ALPHA 版 本 的 swtch 和 _start 将 在 20.3.6 中 介绍 。 


203.4 抢占 


抢占 相当 于 定期 隐 式 调用 Thread_pause 。 依 束 于 UNIX 的 Thread 抢 占 实现 安排 了 一 个 
“虚拟 的 ”定时 髓 每 50 毫 秒 中 断 一 次 ， 中 断 管理 内 就 执行 等 价 于 Thread_pause 的 代码 。 定 时 
器 是 虚拟 的 ， 因 为 它 只 在 执行 进程 的 时 候 才 工作 。Thread_init 使 用 UNIX 信 和 号 工具 初始 化 定 
时 器 的 中 断 信号 。 第 一 步 把 中 断 管理 器 与 虚拟 时 钟 信号 SIGVTALRM 关 联 起 来 ; 


(initialize preemptive scheduling 454)= 


struct sigaction sa; 

memset(&sa, '\O', sizeof sa); 

sa.Sa_handler = (void C) O) interrupt; 

if (sigaction(SIGVTALRM, &sa, NULL) « 0) 
return 0; 


} 

sigaction 结 构 有 三 个 字段 : sa_handler 是 产生 SIGVTALRM 信 和 号 时 所 调用 函数 的 地 址 ; 
sa_mask 是 一 个 信号 集 ， 用 于 指定 处 理 中 断 时 应 当 阻 塞 的 其 他 信号 ，SIGVTALRM 除 外 ， 
sa_flags 提 供 具 体 于 信和 号 的 选项 。 如 下 所 述 ， Thread_init 把 sa_handler 设 并 nterrupt ， 并 清空 
其 他 字段 。 

sigaction 函数 是 用 于 关联 管理 器 与 信号 的 POSIX 标 准 函 数 。POSIX 标 准 得 到 了 大 多 数 UNIX 
变 体 及 Windows NT 这 样 的 其 他 一 些 操作 系统 的 支持 。 这 三 个 参数 都 作为 符号 名 ， 分 别 表示 信 
号 数 、 指 向 修改 该 信号 行为 的 sigaction 结 构 的 指针 以 及 指向 男 一 个 没有 用 该 信号 前 一 行为 进行 
填充 的 sigaction 结 构 的 指针 。 当 第 三 个 参数 为 空 时 ， 就 不 再 返 回 前 一 行为 的 相关 信息 了 。 

如 果 信和 号 的 行为 被 修改 为 第 二 个 参数 所 指定 的 那样 , sigaction 函 数 就 返回 零 ， 和 否则 返回 -1。 
如 果 sigaction 返 回 -1 ，Thread_init 则 返回 零 ， 表 明 线 程 系统 不 能 支持 有 优先 权 的 调度 。 

一 旦 信号 管理 器 就 位 ， 虚 拟定 时 器 就 得 到 了 初始 化 

(initialize preemptive scheduling 454)+= 


{ 


struct itimerval it; 


it.it value.tv. sec = 0; 
it.it value.tv usec = 50; 
it.it interval.tv sec = 0; 
it.it interval.tv usec = 50; 


if (setitimer(ITIMER VIRTUAL, &it, NULL) « 0) 
return O; 


a g 329 





itimerval 结 构 的 it_value 字 段 以 秒 (tv. sec ) 和 毫秒 (tv_msec ) 指定 下 次 定时 器 中 断 的 时 间 
长 度 。it_interval 字 段 中 的 数值 用 于 定时 器 过 期 时 重新 设置 it_value 字 段 。Thread_init 安 排 定 
AY AS Ht E50 BeRb AE — IK, 

setitimer P& ZB Rsigaction HM: 它 的 第 一 个 参数 指定 对 哪个 定时 器 的 行为 起 作用 ( 也 
有 实时 的 定时 器 ) ; 第 二 个 参数 是 个 指针 ， 指 向 存放 新 定时 器 值 的 itimerval 结 构 ; 第 三 个 参 
数 也 是 个 指针 ， 指 向 获取 前 一 定时 器 值 的 itimerval 结 构 ， 但 如 果 不 需要 前 面 的 这 个 值 就 为 空 。 
如 果 成 功 设置 定时 器 ，setitimer 就 返回 零 ;否则 返回 -1。 

虚拟 定时 器 过 期 的 时 候 就 调用 信和 号 管理 器 interrupt。interrupt 返 回 的 时 候 就 会 解除 中 断 ， 
这 时 定时 器 就 重新 开始 。interrupt 运 行 相当 于 Thread_pause 的 函数 ， 除 非 当 前 线程 位 于 临界 
区 中 或 者 位 于 Thread 或 Sem 函数 中 的 某 个 地 方 。 

(static functions 436)+= 


static int interrupt(int sig, int code, 
struct sigcontext *scp) { 
if (critical || 
Scp-»sc pc >= (unsigned long). MONITOR 
&& scp-»sc pc <= (unsigned long) ENDMONITOR) 
return 0; 
put(current, &ready); 
Sigsetmask(scp-»sc mask); 
run(); 
return 0; 


} 


Sig 参 数 存放 信号 数 code 为 一 些 信号 提供 另外 数据 。scp 参 数 是 个 执行 sigcontext 结 构 的 指针 ， 
这 个 结构 在 sc_pc 字 段 中 包含 了 中 断 时 候 的 单元 计数 器 。thread.c 开 始 于 空 函数 _MONITOR ; 
swtch.s 中 的 汇编 语言 代码 以 全 局 符号 ENDMONITOR 的 定义 作为 结束 。 如 果 目 标 文件 装载 
到 程序 ,那么 swtch.s 的 目标 代码 就 紧 随 thread.c 的 目标 代码 ， 然 后 如 果 中 断 线程 的 单元 计数 
器 在 -MONITOR 和 _ENDMONITOR 之 问 ， 它 就 执行 一 个 Thread 或 sem 函数 ， 这 样 ， 如 果 
critical 非 0 ,或 scp->sc_pc 位 于 _MONITOR 和 _ENDMONITOR 之 间 ， interrupt 就 返回 并 忽略 
这 次 定时 器 中 断 。 和 否则 ， 中 断 就 将 当前 线程 推 人 ready 并 运行 另 一 线程 。 

调用 sigsetmask 恢 复 中 断 禁 用 的 信号 集 scp->sc_mask 中 提供 的 信号 ;这 个 集合 通常 仪 存 
放 SIGYTALRM 信 号 。 这 个 调用 很 必要 ， 因 为 下 个 运行 的 线程 可 能 还 没有 被 中 断 挂 起 。 例 如 ， 
假设 线程 A 明 确 调用 了 Thread_pause ， 执 行进 展 到 线程 BE 。 发 生 定时 器 中 断 时 ， 控 制 到 达 
interrupt ， 并 禁用 了 SIGVTALRM 信 号 。B 重 新 启用 了 SIGVTALRM 并 将 处 理 器 释放 给 A 。 

如 果 省 略 了 sigsetmask 的 调用 ,A 再 次 运行 的 时 候 SIGVTALRM 仍 会 是 禁用 的 。A 被 
Thread_pause 而 不 是 interrupt 挂 起 。 下 次 定时 器 中 断 发 生 时 ,A 被 挂 起 而 B 继 续 。 这 种 情况 下 ， 
调用 sigsetmask 是 多 余 的 ， 因 为 B 解 除了 这 个 中 断 ， 恢 复 了 信和 号 掩 码 。Thread_T 结 构 中 的 一 
个 标志 可 用 于 避免 对 sigsetmask 的 不 必要 调用 。 

中 断 管 理 器 的 第 二 个 及 其 后 的 参数 是 受 系统 影响 的 。 大 多 数 UNIX 变 体 支持 上 述 的 code 
和 scp 参 数 ， 但 是 其 他 POSIX 兼 容 系 统 可 能 会 向 管理 器 提供 不 同 的 参数 。 
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20.3.5 一 般 信 号 量 


创建 和 初始 化 信号 量 是 四 个 Sem 孙 数 中 较 容易 的 岗 个 : 
(sem functions 457) 


T *Sem new(int count) { 
T *s; 


NEW(s) ; 
Sem init(s, count); 
return s; 


} 


void Sem init(T *s, int count) { 
assert(current); 
assert(s); 
S-»Count = count; 
s->queue = NULL; 
H 


Sem_wait 和 Sem_signal 很 短小， 但 是 要 编写 既 止 确 义 合理 的 实现 还 需要 慎重 对 待 。 信 和 号 
量 操 作 在 语义 上 等 价 于 : 


Sem wait(s): while (s-»count <= 0) 


--s-»count; 


Sem signal(s): ++S->Count; 
这 些 语法 使 如 下 所 示 的 实现 非常 简明 而 旦 正确, 但 不 合理 ; 这 些 实现 也 忽略 了 警告 和 可 检查 
的 运行 期 错误 。 
void Sem wait(T *s) ( 
while (s->count <= 0) ( 
put(current, &s->queue); 
rund); 


} 
--s-»count; 


} 


void Sem_signal(T *s) { 
if (+4+s->count > 0 && !isempty(s->queue)). 
put(get(&s->queue), &ready); 


} 
这 些 实现 之 所 以 不 合理 是 因为 它们 允许 “资源 不 足 ”。 假 设 s 初 始 化 为 1 且 线 程 A 和 B 都 执行 
for (;;) { . 
Sem_wait(s); 
Sem_signal(s): 
} 


假设 A 位 于 省 略 号 所 表示 的 临界 区 ，B 在 s-->queue 中 。 当 A 调用 Sem_signal 时 ，B 被 移 到 就 绪 
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队列 。 如 果 接 下 来 运行 B ， 它 对 Sem_wait 的 调用 将 会 返回 ， 且 B 将 进入 临界 区 。 但 是 A 可 能 
先 调用 Sem_wait 而 独占 临界 区 。 如 果 A 在 临界 区 中 被 取代 ，B 重 新 开始 但 发 现 s->count HS, 
又 回 到 s ->queue 。 没 有 某 种 干预 ，B 会 在 ready 和 s->queue 之 间 无 限期 地 循环 ， 而 且 ， 更 多 线 
程 竞争 s 会 更 有 可 能 发 生 饿 死 。 

一 种 解决 方法 就 是 确保 线程 从 s->queue 移 到 ready 时 得 到 信和 叶 量 。 当 s->count 要 从 0 递增 
到 1 但 还 没有 真正 增加 时 将 线程 从 s->queue 移 到 ready 就 可 以 实现 这 种 方案 。 类 似 地 ， 阻 塞 的 
线程 在 Sem_wait 中 重新 开始 时 不 减少 s->count 。 


(sem functions 457)+= 
void Sem wait(T *s) { 

assert(current); 

assert(s); 

testalert(); 

if (s-»count <= 0) { 
put(current, (Thread T *)&s-»queue); 
rund); 
testalert(); 

} else 
--S-»count; 


} 


void Sem_signal(T *s) { 
assert(current); 
assert(s); 
if (s->count == 0 && !isempty(s->queue)) { 
Thread.T t = get((Thread T *)&s-»queue); 
assert(!t->alerted); 
put(t, &ready); 
} else 
++S->count; 
H 
当 s-->count 为 零 且 线程 C 移 到 就 绪 队 列 中 时 ， 要 确保 C 得 到 信和 号 量 ， 因为 调用 Sem_wait 的 其 
他 线程 都 因 s->count 为 零 而 阻塞 。 但 是 对 于 一- 般 信 号 量 ，C 不 会 首先 得 到 信号 量 ， 如 果 D 在 C 
再 次 运行 之 前 调用 Sem_signal ， 就 为 另 一 线程 在 C 之 前 获取 信和 号 量 打 开 了 大 门 ， 尽 管 C 也 会 
得 到 信号 量 。 , 
警告 让 Sem_wait 很 难于 理解 。 如 果 s 中 阻塞 的 线程 被 警告 ， 它 在 Sem_wait 中 对 run 的 调用 
就 会 返回 ， 同 时 还 设置 了 它 的 alerted 标 志 。 这 种 情况 下 ，Thread_Alert 而 不 是 Sem_signal 将 
线程 移 到 ready， 这 样 ， 它 的 恢复 就 与 5;->count 的 值 无 关 。 这 个 线程 一 定 不 能 干扰 s， 必须 清 
除 它 的 alerted 标 志 ， 并 引发 Thread_Alerted , 





20.3.6 MIPS 和 ALPHA 上 的 上 下 文 转换 


MIPS 与 ALPHA 版 本 的 _swtch 和 _start 在 SPARC 版 本 的 设计 方面 非常 类 似 ， 但 是 细节 上 
也 有 不 同 的 地 方 。 
MIPS 版 本 的 _swtch 如 下 所 示 。 帧 大 小 为 88 字 节 。$31,48+36($sp) 中 的 存储 指令 保存 “已 
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有 的 调用 方 ” 浮 点 及 整数 寄存 器 ; 寄存 器 31 存 放 返 回 地 址 。 和 斜体 指令 通过 装载 to 的 堆栈 指针 
[ase] 切换 上 下 文 ， 而 且 其 后 的 装载 指令 恢复 to 的 已 有 调用 方 寄 存 器 。 


(MIPS swtch 460)= 

. text 

-globl _swtch 

.align 2 

ent _swtch 

.set reorder 

_swtch: .frame  $sp,88,$31 
subu $sp,88 
.fmask Oxfff00000, -48 


s.d $f20,0C$sp) 
s.d $f22,8($sp) 
s.d $f24,16($sp) 
s.d $f26,24($sp) 
s.d $f28,32($sp) 
s.d $f30,40($sp) 
.mask OxcOff0000,-4 
Sw $16,48-0($sp) 
sw $17, 48+4($sp) 
sw $18,48+8($sp) 
Sw $19,48+12($sp) 
sw $20,48+16($sp) 
sw $21,48420($sp) 
sw $22 ,48+24($sp) 
sw $23,48+28($sp) 
sw $30 ,48+32($sp) 
sw $31,48436($sp) 
sw $sp,0($4) 
Tw $sp,0($5) 
1.d $f20,0($sp) 
l.d $f22,8($sp) 
1.d $f24,16($sp) 
1.d $f26,24($sp) 
1.d $f28,32($sp) 
1.d $f30,40($sp) 
Tw $16, 48+0($sp) 
Tw $17, 48+4($sp) 
Tw $18, 48+8($sp) 
lw $19, 48+12($sp) 
Tw $20, 48+16($sp) 
lw $21,48420($sp) 
lw $22 ,48+24($sp) 
Iw $23,48428($sp) 
lw $30 , 48+32($sp) 
Tw $31,48+36($sp) 
addu $sp,88 
j $31 


这 里 是 MIPS 的 启动 代码 : 


& Z 





(MIPS startup 461)= 
.globl _start 
_Start: move 

move 
jal 
move 
move 
jal 
syscall 
.end _swtch 
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$4 ,$23 # register 23 holds args . 
$25,$30 # register 30 holds apply 

$25 

$4,$2 # Thread exit(apply(p)) 
$25,$21 # register 21 holds Thread exit 
$25 


.globl _ENDMONITOR 


—ENDMONITOR: 


这 段 代码 与 Thread_new 中 受 MIPS 影 响 的 部 分 代码 共同 合作 ， 并 通过 将 Thread_exit args 
及 apply 存 储 在 帧 中 的 适当 位 置 而 安排 它们 分 别 显示 在 寄存 器 21 、23 和 30 中 。apply 的 第 一 


个 参数 传递 给 寄存 器 4 ， 


并 将 结果 返回 到 寄存 器 2 。 启 动 代码 不 需要 一 个 帧 ， 因 此 


Thread_new 仅 建立 一 个 _swtch 帧 ， 但 是 它 在 堆栈 中 那个 帧 下 面 分 配 四 个 字 ， 以 防 apply 接 


WANE BUS Bo 


(initialize a MIPS stack 461)= 
extern void _start(void); 


t->sp -= 16/4; 
t->sp -= 88/4; 
t->sp[(48+20) /4] 
t->sp[(48+28)/4] 
t->sp[(48+32)/4] 
t->sp[(48+36)/4] 


Cunsigned long)Thread_exit; 
(unsigned Tong)args; 

= (unsigned long)apply; 

= (unsigned long)_start; 


由 于 MIPS 的 启动 代码 必须 独立 于 位 置 ，Thread_exit 的 地 址 就 在 寄存 器 21 中 传递 。 启 动 代码 
在 调用 〈jal 指 令 ) 之 前 将 args 的 地 址 复制 到 寄存 器 4 ， 并 将 apply 和 Thread_exit 的 地 址 复制 到 
寄存 器 25 ， 因 为 那 是 MIPS 独 立 于 位 置 的 调用 顺序 所 要 求 的 。 


ALPHA 代 码 块 与 相应 


(ALPHA swtch 462)= 
.globl . swtch 
.ent _swtch 
_swtch: lda 

. Frame 
. fmask 
stt 
stt 
stt 
stt 
stt 
stt 
.mask 
stq 
stq 
stq 


AY MIPS (C85 IRAE 4p] 


$sp,-112($sp) # allocate _swtch's frame 
$sp,112,$26 

Ox3f0000, -112 

$f21,0($sp) # save from's registers 
$f20,8($sp) 

$f19,16($sp) 

$f18,24($sp) 

$f17,32($sp) 

$f16,40($sp) 

0x400fe00, -64 

$26,48«-0($sp) 

$15,48-8($sp) 

$14, 48+16($sp) 
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stq $13,48+24($sp) 
stq $12,48«32($sp) 
stq $11,48+40C$sp) 
stq $10, 48+48($sp) 
stq $9,48+56($sp) 
.prologue 0 
stq $sp,0($16) 
1dq $sp,0($17) 
ldt $f21,0($sp) 
ldt $f20,8($sp) 
ldt $f19,16($sp) 
Idt $f18,24($sp) 
ldt $f17,32($sp) 
ldt $f16,40($sp) 
1dq $26, 48+0($sp) 
dq $15 ,48+8($sp) 
1dq $14 ,48+16($sp) 
1dq $13,48«24($sp) 
1dq $12,48432($sp) 
ldq $11, 48+40($sp) 
ldq $10, 48+48($sp) 
1dq $9,48+56($sp) 
lda $sp,112($sp) 
ret $31,($26) 

.end _swtch 

(ALPHA startup 463)= 

.globl .start 

.ent -start 

_start: .frame $sp,0,$26 
.mask 0x0,0 
.prologue 0 
mov $14,$16 
mov $15,$27 
jsr $26, ($27) 
1dgp $26,0($26) 
mov $0,$16 
mov $13,$27 
jsr $26, ($27) 
call_pal0 

.end -start 

.globl _ENDMONITOR 

—ENDMONITOR: 


(initialize an ALPHA stack 463)= 
extern void _start(void); 


t->sp -= 112/8; 


t->sp[(48+24)/8] 
t->sp[(48+16)/8] 
t-»sp[(48« 8)/8] 
t-»sp[(484 05/8] 


# save from's stack pointer 
& restore to's stack pointer 
# restore to's registers 


# deallocate frame 


# register 14 holds args 

# register 15 holds apply 

# call apply 

# reload the global pointer 

€ Thread exit(apply(args)) 
# register 13 has Thread. exit 


- (unsigned long)Thread exit; 


l 


if 


= (unsigned long)args; 
(unsigned long)apply; 


= (unsigned long)_start; 
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参考 书目 浅 析 

Andrews (1991) 是 关于 并 行 编程 的 综合 文章 。 它 介绍 了 大 部 分 针对 于 编写 并 行 系统 的 
间 题 及 解决 方案 ， 包 括 同步 机 制 、 消 息 传递 系统 和 远程 过 程 调用 。 它 也 介绍 了 四 种 编程 语言 
专 为 并 行 编程 所 设计 的 特点 o 

Thread 是 建立 在 Modula-3 之 上 的 线程 接口 ， 这 个 接口 来 自 于 使 用 Digital 系 统 研究 中 心 的 
Modula-2« ££ f£ TAM. Andrew Birrell 所 著 的 Nelson (1991) 第 4 章 介 绍 了 如 何 用 线程 
编程 ; 任何 人 编写 基于 线程 的 应 用 程序 都 能 从 这 篇 文章 中 获 益 。 大 多 数 现代 操作 系统 中 的 线 
程 工 具 都 在 某 种 方式 上 基于 SRC 接 口 。 

Tanenbaum (1995 ) 调查 了 用 户 级 和 核心 级 线程 的 设计 问题 ， 并 概括 了 它们 的 实现 方案 。 
他 的 个 案 研究 介绍 了 三 种 操作 系统 (Amoeba、Chorus 和 Mach ) 中 的 线程 包 ， 以 及 开放 软件 
基金 会 的 分 布 式 计算 环境 中 的 线程 。 最 初 ，DCE 就 像 这 种 环境 为 人 们 了 解 那样 ， 是 运行 在 
UNIX 的 OSF/1 变 体 上 ,但 是 现在 大 多 数 操作 系统 上 都 搜 有 这 种 环境 ， 包 括 OpenVMS , OS/2 、 
Windows NT E Windows 95, 

Kleiman, 、Shah 和 Smaalders ( 1996 ) 详细 介绍 TPOSIX 线 程 (电气 和 电子 工程 协会 1995 ) 
和 Solaris 2 线程 。 这 本 实用 性 的 书 有 一 章 是 关于 线程 交互 作用 和 库 的 ， 以 及 使 用 线程 并 行 化 
算法 的 大 量 范 例 ， 包 括 排序 和 列表 、 队 列 和 散 列表 的 线程 安全 实现 。 

sieve 改 编 自 一 个 类 似 的 例子 ，Mcllroy (1968 ) 曾 用 来 介绍 如 何 使 用 与 无 优先 权 线 程 一 
样 的 协同 程序 进行 编程 。 几 种 语言 中 都 出 现 了 协同 程序 ， 有 时 名 称 不 同 而 已 。Icon 的 协同 表 
达 就 是 个 例子 (Wampler 和 Griswold 1983 )。Marlin (1980) 调查 了 许多 原始 的 协同 程序 提 
案 ， 并 介绍 了 Pascal 变 体 的 模型 实现 。 

通道 基于 CSP 一 一 通信 顺序 进程 (Hoare 1978 )。 线 程 和 通道 都 出 现在 Newsqueak 中 ， 这 
是 一 个 应 用 的 并 行 语言 。CSP 和 Newsqueak 中 的 通道 比 Chan 所 提供 的 更 强大 ， 因 为 这 两 种 语 
言 都 有 工具 可 以 在 多 个 通道 不 确定 地 等 待 。Pike (1990 ) 浏览 了 Newsqueak 的 一 种 解释 程序 
实现 的 最 重要 部 分 ， 并 介绍 了 使 用 随机 数 改 变 抢 占 频率 ， 使 线程 调度 变 得 不 确定 ( 但 合理 )。 
McIlroy (1990 ) 详细 狼 述 了 一 个 将 短 级 数 作为 数据 流 处 理 的 Newsqueak 程 序 ， 他 的 方法 非 
常 类 似 于 第 法 的 精髓 。 

Newsqueak 现 已 用 于 实现 窗口 系统 ， 它 举例 说 明了 从 线程 中 获得 最 大 益处 的 各 种 交互 应 
用 。NeWS 窗 口 系 统 (Gosling Rosenthal 和 Arden 1989 ) 是 用 具有 线程 的 语 育 所 编写 的 男 -- 
个 窗口 系统 范例 。NeWS 系 统 的 核心 是 个 处 理 文本 和 网 象 的 PostSeript 解 释 程序 。 大 多 数 
NeWS 窗 口 系统 本 身 就 是 用 它 包 括 无 优先 权 线程 扩展 部 分 的 PostScript 变 体 编写 的 。 

函数 式 语 言 Concurrent ML (Reppy 1997 ) 支持 线程 和 同步 通道 的 方式 更 像 Chan — se 
通常 用 非 命令 性 语言 比 基 于 堆栈 的 命令 性 语言 更 容易 实现 线程 。 例 如 ， 在 Standard ML 中 就 
没有 堆栈 ， 因 为 激活 过 程 会 它们 的 调用 方 存在 的 时 间 更 长 。 因 此 ，Concurrent ML 全 部 采用 
Standard ML 实现 。 

使 用 -MONITOR 和 _ENDMONITOR 函数 定义 Thread 和 Sem 实 现 中 的 代码 来 自 于 Cormack 
(1988 )， 其 中 介绍 TUNIX 线 程 的 一 个 类 似 但 稍 有 不 同 的 接口 。Stevens (1992 ) 的 第 10 章 全 
面 论述 了 信号 和 信号 处 理 过 程 ， 它 还 介绍 了 UNIX 必 体 和 POSIX 标 准 之 间 的 区 别 。 
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练习 


20.1 


20.2 


20.3 


20.4 


20.5 


20.6 


20.7 


20.8 


20.9 


二 进 制 信号 量 一 一 通常 称 为 锁 或 互 斥 体 一 一 是 最 普遍 的 一 种 信号 量 。 为 锁 设 计 一 
个 单独 的 接口 ， 它 的 实现 要 比 一 般 信 和 号 量 的 接口 简单 。 要 注意 警告 。 

假设 线程 4 锁定 rz， 然 后 试图 锁 住 y ， 同 时 8 锁定 y》， 然 后 试图 锁 住 x。 这 些 线程 就 死 
Bf: 4 不 能 继续 执行 除非 B 解 开 y; 而 下 也 不 能 运行 ， 除 非 4 解 开 x。 扩 展 你 在 上 题 
中 锁 的 实现 以 检测 这 些 各 种 各 样 的 简单 死 锁 。 

不 使 用 信号 量 重新 实现 thread.c 中 的 Chan 接 口 。 为 通道 设计 一 个 何 时 的 表示 法 Jf 
直接 使 用 这 种 内 部 队列 和 线程 沙 数 ， 而 非 信 号 量 函 数 。 要 注意 警告 。 设 计 一 套 测 
试 方法 估计 一 下 这 些 推测 起 来 可 能 效率 更 高 一 些 的 实现 的 好 处 。 量 化 对 这 个 改进 
的 实现 应 用 程序 必须 具有 的 消息 行为 的 级 别 。 

为 异步 带 缓冲 通信 设计 并 实现 一 个 接口 一 一 一 个 线程 间 消 息 工 具 ， 其 发 送 方 不 用 
等 待 消息 被 接收 ， 同 时 消息 一 直 缓 冲 到 被 接收 为 止 。 你 的 设计 应 当 人 允许 消息 存在 
的 时 间 长 于 它们 的 发 送 线程 所 存在 的 时 间 ; 也 就 是 说 ,线程 发 送出 消息 之 后 在 消 
息 被 接收 之 前 退出 。 异 步 通 信 比 Chan 的 同步 通信 更 加 复杂 ， 因 为 它 必 须 处 理 缓 冲 
消息 的 存储 管理 以 及 更 多 错误 条 件 ， 例 如 ， 为 线程 提供 一 种 方式 确定 是 否 已 经 接 
收 了 一 条 消息 。 

Modula-3 支 持 条 件 变量 。 条 件 变 量 c 与 锁 m 相 关 。 原 子 操作 sieep(m，c) 使 调用 线程 
解 开 m 的 锁 并 等 待 c 。 调 用 线程 必须 锁定 m。wakeup(c) 使 一 个 或 多 个 线程 等 待 c 重 
新 开始 运行 ; 其 中 之 一 解 开 m 并 从 它 的 调用 返回 到 sleep 。broadcast(c) 与 wakeup(c) 
一 样 ， 但 是 c 上 所 有 睡眠 中 的 线程 重新 开始 和 运行。 警告 对 阻塞 在 条 件 变 量 上 的 线程 
不 起 作用 ， 除 非 它们 调用 了 alertsleep 而 不 是 sleep 。 当 一 个 调用 了 alertsleep 的 线程 
得 到 警告 的 时 候 ， 它 就 锁定 m 并 引发 Thread_Alerted 。 设 计 并 实现 一 个 支持 条 件 变 
量 的 接口 ; 使 用 你 在 练习 20.1 中 的 锁 。 

如 果 系 统 支 持 非 阻塞 JO 系 统 调用 ， 就 用 它们 建立 一 个 C 标 准 IO 库 的 线程 安全 实现 。 
也 就 是 说 ， 如 果 一 个 线程 调用 fgetc ， 其 他 线程 可 以 在 那个 线程 等 待 输入 的 时 候 运 行 。 
设计 一 种 方法 不 使 用 MONITOR 和 _ENDMONITOR 计 Thread 和 Sem 函数 具有 原子 
性 。 提 示 : 单个 全 局 临界 标志 是 不 够 的 。 每 个 线程 都 会 需要 一 个 临界 标志 ， 而 且 
汇编 语言 代码 要 修改 这 个 标志 。 要 注意 一 一 使 用 这 种 方法 你 会 无 法 相信 那么 容易 
就 犯 下 了 一 个 细小 的 错误 。 

扩展 Thread_new ， 让 它 接受 指定 堆栈 大 小 的 可 选 参数 。 例 如 ， 

t = Thread new(.., "stacksize", 4096, NULL); 

就 会 创建 一 个 带 有 4K 字 节 堆 栈 的 线程 。 

给 20.1 节 中 介绍 的 Thread 实 现 增加 对 少量 优先 权 的 支持 。 修 改 Thread_init 和 
Thread_new， 让 它们 可 以 接受 优先 权 说 明 作为 可 选 参数 。Tanenbaum (1995 ) 介 
绍 了 如 何 实现 一 个 支持 优先 权 的 合理 调度 策略 。 





20.10 DCE 支 持 模板 ,本 质 上 是 线程 属性 的 结合 表格 。 当 用 DCE 的 pthread_create 创 建 


20.11 


20.12 


20.13 


20.14 


20.15 


20.16 
20.17 


20.18 
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线程 的 时 候 ， 模 板 提供 诸如 堆栈 大 小 及 优先 权 这 样 的 属性 。 模 板 不 会 在 线程 创建 
的 调用 中 重复 相同 的 参数 ， 同 时 不 运行 在 创建 的 地 点 指定 线程 属性 。 用 Table_T 为 
Thread 设 计 一 个 模板 工具 ， 并 修改 Thread_new 让 它 接受 模板 作 为 其 可 选 参 数 之 一 。 
在 Sequent 这 样 具 有 共享 内存 的 多 处 理 器 上 实现 Thread 和 Sem 。 这 种 实现 比 20.3 节 
中 详细 叙述 的 实现 要 更 加 复杂 ， 央 为 在 多 处 理 器 上 线程 是 真正 地 并 行 执 行 。 实 现 
原子 操作 将 需要 某 种 形式 的 低级 自 旋 锁 以 确保 对 访问 共享 数据 结构 的 小 临界 区 的 
独占 访问 ， 就 像 Thread 和 Sem 函数 中 的 那样 。 

在 具有 许多 处 理 器 的 大 规模 并 行 处 理 器 (MPP ) 实现 Thread 、Sem 和 Chan ， 例 如 
Cray T3D, H2" DEC ALPHA 处 理 器 构成 。 在 MPP 上 每 个 处 理 器 都 有 它 自 己 
的 内 存 ， 而 且 一 个 处 理 器 还 要 某 种 低级 机 制 ( 通常 在 硬件 中 实现 ) 以 访问 其 他 处 
理 器 的 内 存 。 这 个 练习 中 的 难点 之 一 是 要 决定 如 何 把 Thread 、Sem 及 Chan 接 口 喜 
欢 的 共享 内 存 模型 映射 到 MPP 提 供 的 分 布 内 存 模型 。 

用 DCE 线 程 实现 Thread 、Sem 和 Chan， 一 定 要 指明 你 的 Thread_new 实现 接受 的 
是 哪些 依赖 于 系统 的 可 选 参数 。 

用 Solaris 2 上 的 LWP 实 现 Thread 、Sem 和 Chan ， 根 据 需 要 给 Thread_new 提 供 可 选 
参数 。 

用 POSIX 线 程 实现 Thread 、Sem 和 Chan (参见 Kleiman 、Shah 及 Smaalders 1996 ), 
用 Microsoft 的 Win32 线 程 接口 实现 Thread , Sem 和 Chan (参见 Richter 1995 ), 

如 果 你 有 权 使 用 SPARC 的 C 编 译 器 ， 例 如 lcc (FraserfüHanson 1995 )， 请 修改 这 
个 编译 器 ， 让 它 不 要 使 用 SPARC 寄 存 器 窗口 ， 它 在 _swtch 中 不 能 执行 ta 3 系统 调 
用 。 你 还 必须 重新 编译 所 使 用 的 任意 库 。 估 计 一 下 运行 期 中 的 改进 结果 。 警 告 : 
这 个 练习 是 项 大 工程 。 

Thread_new 必 须 分 配 一 个 堆栈 ， 因 为 大 多 数 编译 系统 都 假定 程序 开始 运行 时 已 
经 分 配 一 个 连续 的 堆栈 。 少 数 系统 ， 例 如 Cray-2 ， 是 在 运行 中 按 块 分 配 扒 栈 。 如 
果 当 前 块 能 够 容纳 ， 函 数 和 人 口 序列 就 在 当前 块 中 分 配 帧 ;否则 ， 它 就 分 配 一 个 足 
够 大 小 的 新 块 ， 并 将 这 个 新 块 链接 到 当前 块 。 当 已 有 序列 的 最 后 一 个 帧 被 删除 时 ， 
它 就 断 开 块 的 链接 并 释放 其 存储 空间 。 这 种 方法 不 仪 简化 了 线程 的 创建 ， 也 自动 
检查 了 堆栈 溢出 。 修 改 一 个 C 编 译 器 ， 让 它 使 用 这 种 方法 ,并 估计 一 下 修改 后 的 
好 处 。 和 前 一 练习 一 样 ， 需 要 重新 编译 使 用 的 每 个 库 ; 而 且 这 个 练习 也 是 项 大 
工程 。 
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附录 接口 概要 


下 面 按 字母 表 顺 序列 出 了 接口 概要 ; 小 节 中 列举 了 每 个 接口 ， 而 且 如 果 接 口 具 有 基本 类 
型 也 将 其 列 出 。 表 示 法 “T 是 隐 式 X_T” 表 示 接 口交 导出 了 一 个 隐 型 指针 类 型 X_T ， 在 描述 中 
缩写 为 T。 如 果 接 口 出 现 了 基本 类 型 ， 就 给 定 了 X_T 的 表示 形式 。 

每 个 接口 的 概要 都 是 以 字母 表 顺 序列 出 导出 的 变量 以 及 函数 ， 其 中 不 包括 异常 。 每 个 函 
数 的 原型 后 面 都 有 它 会 引发 的 异常 及 一 个 简明 的 描述 。 缩 写 cre 和 ure 代 表 可 检查 或 不 可 检 
查 的 运行 期 错误 。 

下 表 分 类 概括 了 接口 ， 并 给 出 了 其 相应 概要 开始 的 页 面 。 


主要 内 容 ADT | # "om 算 法 A ff 




















Arena 471 Array 472 Atom 474 | AP 470 Chan 476 
Arith 472 ArrayRep 473 Fmt 477 MP 480 Sem 484 
Assert 474 Bit 474 Str 487 XP 494 Thread 493 
Except 476 List 478 Text 491 
Mem 479 Ring 483 
Seq 485 
Set 486 
Stack 487 
Table 490 
: 469 








AP 了 T 是 隐 式 AP_T 


给 任意 AP 表 数 传递 空 IT 时 产生 一 个 c.re.。 

T AP add(T x, T y) Mem Failed 

T AP. addi(T x, long int y) Mem, Failed 

返回 x+y 的 和 。 

int AP_cmp(T x, T y) 

int AP. cmpi(T x, long int y) 

如 果 x<y 、x=y 或 x>y 则 分 别 返 回 小 于 0 、 等 于 0 或 大 于 0 的 整数 。 
T AP. div(T x,T y) Mem Failed 

T AP divi(T x, long int y) Mem, Failed 

返回 商 x/y; 参见 Arith_div 。y=0 是 个 c.r.e.。 

void AP. fmt(int code, va list *app, int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) Mem, Failed 


— TFmUf£E fs eC. 需要 一 个 IT， 并 像 Printf 的 %d 那 样 格式 化 T。app 或 lags 为 空 时 产 
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生 c.r.e.。 

void AP free(T *z) 

释放 并 清除 *z。z 或 *z 为 空 是 c.T.e.。 

T AP. fromstr(const char *str, int base, char * *end) Mem Failed 

把 str 解 释 为 一 个 以 pase 为 底数 的 整数 ， 并 返回 结果 T。 忽 略 前 导 空 格 并 接受 一 个 跟 有 一 
个 或 多 个 以 base 为 底数 的 数字 的 可 选 符号 。 对 于 10<base <36， 小 写字 母 或 大 写字 母 解释 为 
大 于 9 的 数字 。 如 果 end xnull, ，*end 就 指向 str 中 终止 打 描 的 那个 字符 。 如 果 str 没 有 指定 base 
的 底数 ，AP_fromstr 就 返回 空 ， 而 且 如 果 end 非 空 就 将 *end 设 为 Sr。 如 果 str=null 或 者 base<2 
或 base>36 则 产生 c.re.。 

T AP_Ishift(T x, int Mem Failed 

返回 x 左 移 s 位 后 的 结果 ; 空 出 的 位 填 零 ， 且 结果 的 符号 与 x 相 同 。s<0 时 产生 c.re.。 

T AP mod(T x, T y) Mem Failed 

long AP modi(T x, long int y) Mem, Failed 

返回 x mod y; 参见 Arith_mod。y = OB[7* /Ec.r.e.. 

T AP mul(T x, T y) Mem Failed 

T AP muli(T x, long int y) Mem, Failed 

返回 乘积 xy。 

T AP neg(T x) Mem, Failed 

返回 -x。 

T AP. new(long int n) Mem Failed 

分 配 并 返回 初始 为 n 的 一 个 新 T。 

T AP pow(Tx,Ty, Tp) Mem Failed 

返回 xymod p。 如 果 p 为 空 则 返回 xy 。y<0 或 p 非 空 但 P<2 时 产生 c.r.e.。 

T AP rshift(T x, int s) Mem Failed 

返回 x 右 移 s 位 后 的 结果 ; 空 出 的 位 填 零 ， 日 结果 的 符号 与 x 相同 。s<0 时 产生 c.r.e.。 

T AP sub(T x, T y) Mem, Failed 

T AP. subi(T x, long int y) Mem, Failed 

返回 x-y 的 差 。 

long int AP. toint(T x) 

返回 符号 与 xX 相 同上 且 值 为 xl modLONG_MAX+1 的 长 整数 。 

char * AP tostr(char *str, int size, int base, T x) Mem Failed 

用 X 的 base 底 数字 符 表 示 形 式 填充 str[0..size-1] ， 并 返回 str dpi str ，AP_tostr 分 配 
一 个 str。 大 写字 母 用 于 在 base>10 时 表示 大 于 9 的 数字 。 非 空 的 str 太 小 或 者 base<2 或 base>36 
时 产生 一 个 c.r.e.。 








Arena T 是 隐 式 Arena_T 


给 任意 Arena 函数 传递 nbytes 三 0 或 空 T 时 产生 一 个 c.T.e.。 
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void * Arena, alloc(T arena, long nbytes, const char * file, int line) Arena Failed 

在 arena 中 分 配 nbytes 个 字 节 ， 并 返回 指向 第 一 个 字 节 的 指针 。 字 节 内 容 没 有 初始 化 。 如 
果 Arena_alloc 引 发 Arena_Failed ， 那 么 file 和 line 就 作为 错误 源 进 行 报告 。 

void * Arena, calloc(T arena, long count, long nbytes, const char *file, int line) 
Arena, Failed 

在 arena 中 为 count 元 素数 组 分 配 空 间 ， 每 个 元 素 占 nbytes ， 并 返回 第 一 个 元 素 的 指针 。 
count 和 0 时 产生 一 个 c.r.e.。 元 素 均 未 初始 化 。 如 果 时 产生 一 个 c.re.。 如 果 Arena_calloc 引 发 
Arena_Failed ， 那 么 f ile 和 line 就 作为 错误 源 进行 报告 。 

void Arena dispose(T *ap) 

释放 *ap 中 的 所 有 空间 ， 释 放 arena 自 身 ， 并 清空 *ap 。ap 或 *ap 为 空 时 产生 一 个 cr.e.。 

void Arena, free(T arena) 

释放 arena 中 的 所 有 空间 从 最 后 一 次 调用 Arena_free 以 来 分 配 的 所 有 空间 。 

T Arena new(void) Arena NewFailed 


分 配 、 初 始 化 并 返回 一 个 新 的 arena 。 








Arith 


int Arith_ceiling(int x, int y) 

返回 不 小 于 x/y 实 数 商 值 的 最 小 整数 。y = 0 时 产生 一 个 ure。 

int Arith_div(int x, int y) 

返回 x/y ， 不 超过 实数 z 的 最 大 整数 ， 让 z . y=x。 趋 向 -进行 截取 ; 例如 ，Arith_div 
(-13, 9) 返回 -3 。y=0 时 产生 一 个 ure。 

int Arith, floor(int x, int y) 

返回 不 超过 x/y 实 数 商 值 的 最 大 整数 。y=0 时 产生 一 个 u.r.e。 

int Arith max(int x, int y) 

返回 max(x, y), 

int Arith_min(int x, int y) 

返回 min(x, y) 。 

int Arith_mod(int x, int y) 





返回 Xx-y， Arith_div(x, y); #] 40, Arith mod(-13, 5) 返 回 2 。y=0 时 产生 一 个 ure。 


Array T&RI&stArray T 


数组 下 标 从 0 到 N-1， 这 里 是 数组 的 长 度 。 空 数组 没 有 元 素 . MEX Array HH (GIB ST 
时 产生 一 个 cr.e.。 


T Array_copy(T array, int length) Mem, Failed 


创建 并 返回 新 数组 存放 array 中 的 前 length 个 元 素 。 如 果 length 大 于 array 的 长 度 ， 多 余 的 
元 素 就 被 清空 了 。 


Void Array free(T *array) 


472 


342 wh X 





PERUSE Re array, array sk * array 为 空 时 产生 一 个 cr.e.。 

void * Array. get(T array, int i) 

返回 指向 array 中 第 i 个 元 素 的 指针 。i<0 或 1>N 时 产生 一 个 c.r.e ， 这 里 N 为 array 长 度 。 

int Array_length(T array) 

返回 array 中 的 元 素 个 数 。 

T Array new(int length, int size) Mem, Failed 

分 配 、 初 始 化 及 返回 具有 leng 也 个 元 素 的 新 数组 ， 每 个 元 素 为 size 字 节 。 元 素 都 清空 。 
length<0 或 size =O AY Pe ^E — A c.r.e., 

void * Array put(T array, int i, void *elem) 

从 elem 复 制 Array_size(array) 个 字 节 到 array 中 的 第 i 个 元 素 ， 并 返回 elem 。，elem X92 或 者 
i<0 或 i 二 NN 时 产生 一 个 c.r.e ， 这 里 N 为 array 长度。 

void Array resize(T array, int length) Mem Failed 

把 array 的 元 素 个 数 改 为 length 。 如 果 length 大 于 原始 长 度 ， 多 余 的 元 素 就 被 清空 了。 
length<0 时 产生 一 个 c.r.e.。 

int Array_size(T array) 


返回 array 中 元 素 的 宁 节 数 。 
ArrayRep T 是 Array_T 


typedef struct T { 
int length; int size; char *array; }*T; 
修改 T 中 的 字段 是 一 个 ure。 
void ArrayRep_init(T array, int length, int size, void *ary) 
用 length size 和 ary 的 值 初始 化 array 中 的 字段 。 length #0 Hary 43 , length = OH ary dE 
空 或 者 size 和 0 时 产生 一 个 c.re.。 用 其 他 方法 初始 化 T 时 会 产生 一 个 u.re。 


Assert 


assert(e) 
如 果 e 为 零 则 引发 Assert_Failed。 依 照 句 法 ，assert(e) 是 个 表达 式 。 如 果 包 含 assert.h 时 定 
义 JNDEBUG ， 就 禁用 了 断言 。 


Atom 


给 任意 Atom 函数 传递 空 str 时 产生 一 个 c.Te.。 修 改 一 个 原子 会 引发 ure。 
int Atom_length(const char * str) 

返回 原子 str 的 长 度 。str 不 是 一 个 原子 时 产生 一 个 c.re.。 

const char * Atom_new(const char *str, int len) Mem_Failed 


为 str[0..len-1] 返回 一 个 原子 ， 如 果 需 要 新 建 一 个 。len<0 时 产生 一 个 cre . 


const char * Atom string(const char *str) Mem Failed 
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i& [El Atom, new(str, strlen(str)), 
const char * Atom int(long n) Mem, Failed 


为 n 的 十 进 制 字符 串 表示 形式 返回 一 个 原子 。 
Bit T 是 隐 式 Bit_T 


位 矢量 中 的 位 是 有 限 的 0 到 N-1 ， 这 里 N 是 矢量 的 长 度 。 给 任意 Bit 函 数 传递 空 T 时 产生 一 
个 c.r.e ， 除 了 Bit_union、Bit_inter 、Bit_minus 和 Bit_diff 。 

void Bit clear(T set, int lo, int hi) 

清除 set 中 的 位 lo..hi。lo>hi、lo<0 或 lo 六 时 产生 一 个 cf.e.。 这 里 人 为 set 的 长 度 ，hi 也 类 似 。 

int Bit count(T set) 

返回 set 中 1 的 个 数 。 474 

T Bit diff(T s, T t) Mem Failed 

返回 s/t 的 对 称 差分 : SHIN Ik. WRR MIs, COSDGCRCSE. SH AHS MY 
s 和 t 长 度 不 同时 产生 一 个 c.r.e.。 

int Bit eq(T s, T t) 

如 果 s=t 则 返回 1 否则 返回 0。s 和 t 长 度 不 同时 产生 一 个 c.T.e.。 

void Bit free(T *set) 

释放 并 清空 *set 。set 或 *set 为 空 时 产生 一 个 c.r.e.。 

int Bit get(T set , int n) 

BRE Sn fi. n«Oxkn SNAP 7^ AE — Scere, CHIN set ME HE 

T Bit inter(T s, T t) Mem Failed 

返回 smt: s 和 t 的 逻辑 与 。 其 cr.e 参 见 Bit_diff 。 

int Bit length(T set) 

返回 set 的 长 度 。 

int Bit leq(T s, T t) 

如 果 s St 则 返回 1; 否则 返回 0 。 其 c.r.e 参 见 Bit_eq。 

int Bit_lt(T s, T t) 

如 果 s ct 则 返回 1; 否则 返回 0。 其 cre 参 见 Bit_eq。 

void Bit map(T set, void apply(int n, int bit, void *cl), void *cl) 

set 中 从 第 0 位 到 第 N-1 位 的 每 一 位 都 调用 apply(n, bit, cD) ， 这 里 N 为 set 的 长 度 。 通 过 apply 
修改 set 以 作用 于 bit 后 来 的 值 。 

T Bit_minus(T s, Tt) Mem Failed 

返回 s-t:s 和 ~t 的 逻辑 与 。 其 c.r.e 参 见 Bit_diff， 

T Bit new(int length) Mem Failed 

创建 并 返回 length 长 度 的 新 位 矢量 0。length<0 时 产生 一 个 cre. . 

void Bit. not(T set, int lo, int hi) 

set PAY fillo..hi BU o He.r.e Z& WBit clear, 
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int Bit put(T set, int n, int bit) 
将 第 n 位 设置 为 bit， 并 返回 位 n 以 前 的 值 。bit<0 或 bit>1 时 或 n<0 或 n SNA /E— c.r.e.. 


这 里 入 为 set 的 长 度 。 


void Bit_set(T set, int lo, int hi) 

BA set PAY flo.hi, Hc.r.e Bit clear, 

T Bit union(T s, T t) Mem Failed 

返回 s Ut: smItUiE Hak. Hc.ref Bit diff, 


Chan TT 是 隐 式 Chan_T 


给 任意 Chan 函 数 传递 空 T 或 调用 Thread_init 之 前 调用 会 产生 一 个 cre. 。 
T Chan new(void) Mem Failed 

创建 、 初 始 化 及 返回 新 通道 。 

int Chan_receive(T c, void *ptr, int size) 


等 待 相应 的 Chan_send， 然 后 从 发 送 方 找 贝 size 之 多 的 字 节 到 ptr， 并 返回 拷贝 的 字 节 数 。 


ptr 为 空 或 size<0 时 产生 一 个 c.r.e.。 


int Chan, send(T c, const void *ptr, int size) Thread. Alerted 


等 待 相应 的 Chan_receive ， 然 后 从 ptr 拷 员 size 之 多 的 字 节 到 接收 方 ， 并 返回 拷贝 的 字 节 


数 。 其 c.r.e 参 见 Chan_receive。 


Except T 是 Except_T 


typedef struct T (char *reason; ) T; 

TRY 语句 的 语法 如 下 所 示 ; S 和 e 表 二 语句 和 异常 。BLSE 诸 句 可 选 。 

TRY S EXCEPT(e,) S,...EXCEPT(e,) S, ELSE So END_TRY 

TRY S FINALLY S, END TRY 

void Except raise(const T *e, const char *file, int line) 

TEW A^ bs file 和 line 引 发 异常 *e 。e 为 空 时 产生 一 个 c.r.e.。 未 捕 提 的 异常 将 使 程序 中 断 。 
RAISE(e) 

引发 e。 

RERAISE 

再 次 引发 使 管理 器 运行 的 异常 。 

RETURN 

RETURN 表达 式 

是 个 用 在 TRY 语句 中 的 返回 语句 。 在 TRY 语句 中 使 用 C 返 回 语句 会 产生 一 个 ure. o 


Fmt T£Fmt T 


typedef void (* T)(int code, va list * app, int put(int c, void *cl), void *cl, 
unsigned char flags[256], int width, int precision) 
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定义 了 转换 函数 的 类 型 ， 相关 转换 指示 符 出 现 格式 串 中 时 由 Fmt 函 数 调用 。 这 里 ， 调 用 
put(c, cD) 生成 每 个 格式 化 字符 c。 表 14-1(162 页 ) 概 括 转换 指示 符 的 初始 集 。 向 任意 Fmt 函 数 
传递 空 put 、buf 或 fmt ， 或 者 格式 串 使 用 了 与 转换 函数 无 关 的 转换 指示 符 。 

char *Fmt flags = "—40" 
指向 可 以 出 现在 转换 指示 符 中 的 标志 符 。 

void Fmt_fmt(int put(int c, void *cl), void *cl, const char *fmt, we) 
根据 格式 中 ftmt 格 式 化 并 生成 “…” 参 数 。 

void Fmt_fprint(FILE *stream, const char *fmt, we) 

void Fmt_print(const char *fmt, ...) 

根据 fmt 格 式 化 并 生成 “...” 参 数 ; Fmt fprintj 4 stream ， 而 Fmt_print 写 到 stdout 。 

void Fmt_putd(const char *str, int len, int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision) 

void Fmt_puts(const char *str, int len, int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision) 

根据 FEmt 的 默认 值 ( 参见 162 页 的 表 14-1 ) 和 flags width 和 precision 的 值 格式 化 并 在 
str[0..len--1] 生 成 转换 这 来 的 数字 (Fmt_putd ) 和 字符 中 ( Fmt puts )。str 为 空 、len<0 或 
flags 为 空 时 产生 一 个 cr.e.。 

T Fmt_register(int code, T cvt) 

把 cvt 与 格式 符 code 关 联 ， 并 返回 前 一 转换 函数 codec0 zicode» 255 mF /E — Sere.. 

int Fmt_sfmt(char *buf, int size, const char *fmt, ...) Fmt Overflow 

根据 fmt 格 式 化 “...” 参 数 并 放 人 buf[1..size-1] ， 在 未 尾 附 加 一 个 空 字符 ; 以 及 返回 buf 
的 长 度 。size 和 0 时 产生 一 个 c.Le.。 如 果 生 成 了 多 余 size-1 个 字符 则 引发 Fmt_Overflow , 

char *Fmt string(const char *fmt, ...) 

根据 fmt 将 “…” 参 数 格式 化 成 以 nu1 结 束 的 字符 串 ， 并 返回 这 个 字符 串 。 

void Fmt_vfmt(int put(int c, void *cl), void *cl, const char *fmt, va list ap) 
参见 Fmt_fmt ;从 ap 列表 中 接收 参数 。 

int Fmt_vsfmt(char *buf, int size, const char *fmt, va list ap) Fmt Overflow 
参见 Fmt_sfmt ;从 ap 列表 中 接收 参数 。 

char *Fmt_vstring(const char *fmt, va list ap) 


Z WFmt string; 从 列表 ap 中 接收 参数 。 
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List T£List T 


typedef struct T *T; 

struct T ( T rest; void * first; y 

PP List KR IHE 3list M HE AT IPM BEY ASE | 

T List. append(T list, T tail) 

Alis EE HS Ain tail His füllist , 如 果 1list 为 空 List append3& [tail . 
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T List copy(T list) Mem Failed 

创建 并 返回 最 高 级 别 的 副本 。 

void List free(T *list) 

释放 并 清空 *list 。list 为 空 时 产生 一 个 c.r.e.。 

int List length(T list) 

返回 list 中 的 元 素 个 数 。 

T List list(void *x, ...) Mem Failed 

创建 并 返回 一 个 列表 ， 其 元 素 为 “…” 参 数 ， 一 直到 第 一 个 空 指针 。 

void List map(T list, void apply(void * *x, void *cl), void *cl) 

对 list 中 的 每 个 元 素 p 调 用 apply(&p ->first, cD) 。 如 果 apply 修改 list 则 为 一 个 ur.e。 

T List_pop(T list, void * *x) 

如 果 x 非 空 ， 把 ist->first 赋 给 *x; 释放 list 并 返回 list->rest。 如 果 1list 为 空 ，List_pop 返 回 
空 且 不 修改 *x。 

T List push(T list, void *x) Mem Failed 

Flist 的 前 面 添加 一 个 新 元 素 存 放 x ， 并 返回 新 列表 。 

T List reverse(T list) 

将 list 中 的 元 素 颠 倒 顺 序 排列 ， 然 后 返回 颠倒 过 来 的 列表 。 

void ** List toArray(T list, void *end) Mem Failed 

创建 一 个 N+1 个 元 素 的 数组 ， 其 中 存放 了 list 中 的 N 个 元 素 ， 并 返回 指向 这 个 数组 第 一 个 
元 素 的 一 个 指针 。 数 组 中 的 第 N 个 元 素 是 end 。 


Mem 


向 任意 Mem 函数 或 宏 传递 nbytes <0, 

ALLOC(nbytes) Mem Failed 

分 配 nbytes 字 节 并 返回 指向 第 一 个 字 节 的 指针 。 字 节 未 初始 化 。 参 见 Mem_alloc，。 

CALLOC(count, nbytes) Mem Failed 

为 一 个 count 元 素 的 数组 分 配 空间 ， 每 个 元 素 占 nbytes 字 节 ， 并 返回 指向 第 一 个 元 素 的 指 
fF. count <0 时 产生 一 个 c.r.e.。 其 中 元 素 都 被 清空 。 参见 Mem_calloc 。 

FREE(ptr) 

如 果 ptr 非 空 就 释放 ptr ， 并 且 清 除 ptr 。 多 次 计算 ptr。 参 见 Mem_free 。 

void *Mem_alloc(long nbytes), const char *file, int line) Mem Failed 

分 配 nbytes 字 节 并 返回 指向 第 一 个 字 节 的 指针 。 字 节 未 初始 化 。 如 果 Mem_alloc 引 发 
Mem Failed, file 和 line 就 作为 错误 源 进 行 报告 。 ， 

void * Mem_calloc(long count， long nbytes, const char *file, int line) Mem. Failed 

为 一 个 count 元 素 的 数组 分 配 空间 ， 每 个 元 素 占 nbytes 字 节 ， 并 返回 指向 第 一 个 元 素 的 指 
针 。count 和 0 时 产生 一 个 cre.。 其 中 元 素 都 被 清空 ， 不 需要 将 指向 空 或 浮 点 数值 的 指针 初始 
化 为 0.0。 如 果 Mem_calloc 引 发 Mem_EFailed file 和 line 就 作为 错误 源 进行 报告 。 
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void Mem free(void *ptr, const char *file, int line) . 

如 果 ptr 非 空 则 释放 ptr。 如 果 ptr 是 Mem 分 配 函 数 的 前 一 调用 所 未 返回 的 指针 ， 则 引发 一 
个 u.r.e。 实 现 使 用 file 和 line 报 告 内 存 使 用 错误 。 

void *Mem resize(void *ptr, long nbytes, const char * file, int line) Mem Failed 

修改 存放 nbytes 字 节 的 ptr 存 储 块 的 大 小 ， 并 返回 指向 这 个 新 块 第 一 个 字 节 的 指针 。 如 果 
nbytes 超 出 原始 块 的 大 小 ， 多 余 的 字 节 就 不 初始 化 。 如 果 nbytes 小 于 原始 块 的 大 小 ， 那 么 仅 
有 nbytes 字 节 出 现在 新 块 中 。 如 果 Mem_resize 引 发 Mem_Failed ，file 和 line 就 作为 错误 源 进 
行 报告 。ptr 为 空 时 产生 一 个 cr.e ;如 果 ptr 是 Mem 分 配 函 数 的 前 一 调用 所 未 返回 的 指针 ， 则 
引发 一 个 ur.e。 

NEW(p) Mem, Failed 

NEWO(p) Mem Failed 

分 配 足够 大 的 内 存 块 存放 *p ， 将 p 设 置 为 块 地 址 ， 并 返回 该 地 址 。NEWO 清 除 这 些 字 节 
内 容 ，NEW 则 不 进行 初始 化 。 这 两 个 宏 都 仅 计算 一 次 ptr 。 

RESIZE(ptr, nbytes) Mem Failed 

修改 存放 nbytes 字 节 的 ptr 存 储 块 的 大 小 ， 并 让 ptr 重 新 指向 大 小 调整 后 的 存储 块 ， 然 后 返 
回 块 地 址 。ptr 要 多 次 计算 。 参 见 Mem_resize 。 





MP T 是 MP_T 


typedef unsigned char *T 

MPH ZUR Tn fe AF S MACE EET, ， 这 里 n 最 初 为 ?22 TAT LAMP sete, PR 
数 指定 以 u 或 ui 结尾 的 执行 无 符号 算法 ; 其 他 的 执行 有 符号 算法 。MP 函数 在 引 发 
MP_DPivideByZero 或 MP_Overflow 前 计算 它们 的 结果 。 向 任意 MP 函数 传递 空 T 会 产后 一 个 
c.f.e.。 向 任意 MP 函数 传递 太 小 的 T 会 产生 一 个 u.r.e 。 

T MP_add(T z, T x, T y) MP Overflow 

T MP. addi(T z, T x, long y MP Overflow 

T MP addu(Tz, Tx, T y) MP Overflow 

T MP addui(T z, T x, unsigned long y) MP. Overflow 

Z 设 为 x+y， 并 返回 z 。 

T MP_and(T z, T x, T y) 

T MP. andi(T z, T x, unsigned long y) 

z 设 为 x AND y， 并 返回 z。 

T MP. ashift(T z, T x, int S) 

z 设 为 x 右 移 s 位 后 的 值 并 返回 z。 空 出 的 位 填 上 x 的 符号 位 。s<0 时 产 生 一 个 c.r.e.。 

int MP_cmp(T x, T y) 

int MP. cmpi(T x, long y) 

int MP. cmpu(T x, T y) 

int MP cmpui(T x, unsigned long y) 
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x<y 、x=y 或 x>y 时 分 别 返回 小 于 0 、 等 于 0 或 大 于 0 的 整数 . 

T MP cvt(int m, T z, Tx) MP Overflow 

T MP cvtu(int m, Tz, Tx) MP Overflow 

把 x 缩小 或 扩大 为 一 个 m 位 的 有 符号 或 无 符号 的 整数 并 放 入 z， 然 后 返回 z 。m<2 时 产生 一 
^^c.r.e., 

T MP. div(T z, T x, T y) MP Overflow, MP DivideByZero 

T MP. divi(T z, T x, long y) MP Overflow, MP DivideByZero 

T MP divu(Tz, Tx, Ty) MP DivideByZero 

T MP. divui(T z, T x, unsigned long y) MP Overflow, MP DivideByZero 

ZU Axly3JtiR Biz, ATT PROBUS ISI T o EEG; 参见 Arith_div 。 

void MP. fmt(int code, va list * app,int put(int c, void *cl), void *cl, 





unsigned char flags[], int width, int precision) 

void MP. fmtu(int code, va list * app,int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

是 Fmt 转 换 函数 。 它 们 需要 一 个 TI 及 一 个 底数 b ， 并 像 printf 的 %d Al oou JE FERE TH IAE - 
b<2 或 b>36 时 和 app 或 flags 为 空 时 产生 -个 cr.e.。 

T MP fromint(T z, long vy) MP Overflow 

T MP. fromintu(T z, unsigned long u) MP. Overflow 

z 设 为 v 或 u 并 返回 z。 

T MP. fromstr(T z, const char *str, int base,char **end) MP. Overflow 

把 str 解 释 为 以 base 为 底 的 一 个 整数 ， 并 把 z 设 为 那个 整数 ， 然 后 返回 z。 参 见 

AP_fromstr , 

T MP_Ishift(T z, T x, int s) 

z 设 为 x 左 移 s 位 后 的 值 然后 返回 z 。 空 出 的 位 填 上 零 。s<0 时 产生 一 个 cr.e.。 

T MP mod(T z, T x, T y) MP Overflow, MP. DivideByZero 

Zz 设 为 x mod y 并 返回 z。 趋 向 于 -wm 进行 截取 ; 参见 Arith_mod 。 

long MP_modi(T x, long y) MP_Overflow, MP_DivideByZero 

返回 x mod y。 趋 向 于 -进行 截取 ; 参见 Arith_mod。 

T MP modu(Tz, Tx, Ty) MP DivideByZero 

Zi x mod y 并 返回 z。 

unsigned long MP modui(T x, unsigned long y) MP. Overflow, MP DivideByZero 








返回 Xx mod y, 

T MP mul(T z, Tx, Ty) MP Overflow 

2z 设 为 X，y 并 返回 z。 

T MP_mul2(T z, T x, T y) MP Overflow 

T MP mul2u(T z, T x, T y) MP Overflow 

z 设 为 xy 的 双 倍 长 度 结果 并 返回 具有 2n 位 的 z， 
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T MP muli(T z, T x, long y) MP Overflow 

T MP. mulu(T z, T x, T y) MP Overflow 

T MP mului(T z, T x, unsigned long y) MP Overflow 

Z 设 为 xy 并 返回 z。 

T MP neg(T z, Tx) MP Overflow 

z 设 为 -xX 并 返 回 z 。 

T MP new(unsigned long u) Mem, Failed, MP Overflow 

创建 并 返回 初始 为 u 的 一 个 T， 

T MP. not(T z, T x) 

Zz 设 为 ~x 并 返回 z。 

T MP. or(T z, T x, T y) 

T MP_ori(T z, T x, unsigned long y) 

z 设 为 x OR y3f3& [nz , 

T MP rshift(T z, T x, int s) 

z 设 为 x 右 移 s 位 后 的 值 并 返回 z。 空 出 的 位 填 零 。s<0 时 产生 一 个 c.re.。 482 

int MP. set(int n) Mem. Failed 

重新 将 MP 设置 为 n 位 算法 。n<2 时 产生 一 个 c.r.e.。 

T MP_sub(T z, T x, T y) MP Overflow 

T MP subi(T z, T x, long y) MP Overflow 

T MP. subu(T z, T x, Ty) MP Overflow 

T MP. subui(T z, T x, unsigned long y) MP Overflow 

z 设 为 x-y 并 返回 z。 

long int MP toint(T x) MP. Overflow 

unsigned long MP tointu(T x) MP Overflow 

x 返回 位 一 个 长 整数 或 无 符号 长 整数 。 

char * MP tostr(char *str, int size, int base, T x) Mem, Failed 

str[0..size-1] 填 以 null 结 尾 的 x 的 base 底 的 字符 串 表示 形式 ， 然 后 返回 str 。 如 果 str 为 空 ， 
MPEF_tostr 则 忽略 size 并 分 配 这 个 字符 串 。 参 见 AP_tostr 。 

T MP. xor(Tz, Tx, T y) 

T MP. xori(T z, T x, unsigned long y) 

z 设 为 Xx XOR y 并 返回 z。 


Ring TH stHyRing_T 


环 的 下 标 从 0 到 N-1， 这 里 入 是 环 的 长 度 。 空 环 没有 元 素 。 任 何 地 方 前 可 以 添加 或 删除 指 
fh; 环 字段 扩充 。 旋 转 一 个 环 改变 它 的 原点 。 向 任意 Ring 函 数 传递 一 个 空 T 会 产生 一 个 c.r.e. 。 

void *Ring_add(T ring, int pos, void *x) Mem. Failed 

fering 中 的 pos 位 置 插入 x 并 返回 x。 位 置 指 的 是 元 素 之 间 的 点 ; 参见 Str。pos < -N aX 
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pos>N+I 时 产生 一 个 c.re， 这 里 N 为 ring 的 长 度 。 
void *Ring addhi(T ring, void *x) Mem, Failed 
void *Ring addlo(T ring, void *x) Mem Failed 
向 ring 的 高 端 ( 下 标 N-1 ) 或 低 端 (下 标 0 ) 添加 x ， 并 返回 x。 
void Ring_free(T *ring) 
释放 并 清除 *ring 。ring 或 *ring 为 空 时 产生 一 个 cr.e,。 
int Ring_length(T ring) 
返回 ring 中 的 元 素 个 数 。 
void * Ring get(T ring, int i) 
返回 环 中 的 第 i 个 元 素 。i<0 或 1 >N 时 产生 一 个 c.r.e ， 这 里 N 是 ring 的 长 度 。 
T Ring new(void) Mem Failed 
创建 并 返回 一 个 空 环 。 
void *Ring put(T ring, int i, void *x) Mem, Failed 
把 ring 中 的 第 i 个 元 素 改 为 x 并 返回 以 前 的 值 。 其 c.r.e 参 见 Ring_get 。 
void *Ring remhi(T ring) 
void *Ring remlo(T ring) 
删除 并 返回 ring 高 端 〈 下 标 W-1 ) 或 低 端 (下 标 0 ) 的 元 素 。ring 为 空 时 产生 一 个 c.r.e.。 
void* Ring remove(T ring, int i) 
从 ring 删 除 并 返回 元 素 i。i<0 或 >N 时 产生 一 个 c.r.e ， 这 里 N 是 ring 的 长 度 。 
T Ring ring(void *x, ...) Mem Failed 
创建 并 返回 一 个 环 ， 其 元 素 为 “... ”参数 直 到 第 一 个 空 指针 。 
void Ring_rotate(T ring, int n) 
把 ring 的 原点 向 左 (n<0 ) 或 向 右 (nz0) 旋转 na 个 元 素 。lnl<0 或 Ini>N 时 产生 一 个 c.re ， 
这 里 N 是 ring 的 长 度 。 


Sem TT 是 隐 式 的 Sem_T 


typedef struct T { int count; void *queue; ) T; 
BRST POSE, RE BSem oh We BAR WE EMT rure, hy (ER Sem A BE 
递 空 T 或 在 调用 Thread_init 之 前 调用 任意 Sem 函数 都 会 引发 一 个 cr.e.。 

LOCK 语 句 的 句法 如 下 ; S 和 mm 表示 语句 及 T。 
LOCK(m) S END LOCK 

484 mm 被 锁定 ， 执 行 语句 $ 并 解 开 m。LOCK 可 以 引发 Thread_Alerted , 
void Sem_init(T *s, int count) 
把 s->count 设 为 count。 在 同一 T 上 多 次 调用 Sem_init 是 个 u.r.e。 
Sem T *Sem new(int count) Mem Failed 
创建 并 返回 一 个 count 字 段 初始 化 为 count 的 T。 
void Sem wait(T *s) Thread Alerted 
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等 待 直 到 s ->count>0， 然 后 递减 s->count 。 
void Sem signal(T *s) Thread_Alerted 
递增 s->count 。 


Seq T 是 隐 式 的 Seq_T 


Set 


序列 下 标 从 0 到 N-1， 这 里 N 是 序列 的 长 度 。 空 序列 内 有 元 素 。 低 端 (下 标 0 ) 或 高 端 
(N-1) 可 以 添加 或 删除 指针 ; 序列 自动 扩充 。 向 任意 5eq 函 数 传递 空 TT 是 个 c.r.e. 。 


void *Seq addhi(T seq, void *x) Mem Failed 

void * Seq addlo(T seq, void *x) Mem Failed 

问 seq 的 高 端 或 低 端 添加 x 并 返回 x。 

void Seq_free(T *seq) 

释放 并 清空 *seq 。seq 或 *seq 为 空 时 产生 一 个 c.re.。 

int Seq_length(T seq) 

返回 seq 中 的 元 素 个 数 。 

void * Seq get(T seq, int i) 

返回 seq 中 的 第 i 个 元 素 。i<0 或 1>N 时 产生 一 个 c.r.e， 这 里 VN 为 Seq 的 长 度 。 
T Seq new(int hint) Mem Failed 


创建 并 返回 一 个 完 序 列 。hint 为 这 个 序列 最 大 大 小 的 估计 值 。hint<0 时 产生 一 个 c.r.e.。 


void * Seq put(T seq, int i, void *x) 

把 seq 的 第 i 个 元 素 修改 为 x 并 返回 原 有 值 。 其 c.r.e 参 见 Seq_get 。 
void * Seq remhi(T seq) 

void * Seq remlo(T seq) 

删除 并 返回 seq 的 高 端 或 低 端 元 素 。seq 为 空 时 产生 一 个 cr.e.。 
T Seq seq(void *x,...) Mem Failed 

创建 并 返回 一 个 序列 ， 其 元 素 为 “.….” 参 数 直到 第 一 个 空 指针 。 


Tg Set T 


除了 Set_diff Set inter, Set minus 和 Set _union 函数 把 空 T 解 释 成 空 集 ， 向 任意 Set 函 数 


传递 空 member 或 T 都 是 个 c.r.e. 


T Set_diff(T s, T t) Mem Failed 


返回 s/t 的 对 称 差分 子 集 : 元 素 仅 出 现在 s 或 t 中 的 集合 SH BLU A: RAGAN 的 cmp 和 





hash 函数 的 非 空 和 t， 会 产生 一 个 c.r.e.。 


void Set_free(T *set) 

释放 并 清空 *set 。 sef 或 *set 为 空 时 产生 一 个 cr.e.。 

T Set inter(T s, Tt) Mem, Failed 

返回 st: 元 素 出 现在 s 和 t 中 的 几 个 集合 。 其 c.r.e. S Set diff. 
int Set_length(T set) 
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返回 set 中 的 元 素 个 数 。 

void Set. map(T set, void apply(const void * member, void *cl), void *cl) 

为 每 个 member e seti] Happly(member, cl), 。apply 要 修改 set 则 产生 一 个 c.r.e.。 
int Set member(T set, const void *member) 

如 果 member € set 则 返回 1 ; 否则 返回 0 。 

T Set minus(T s, T t) Mem Failed 

返回 s-t 的 差 : 元 素 HH BU TES TELS HEU TELS SE A, Here. BU Set. diff, 

T Set. new(int hint, int cmp(const void *x, const void *y), 





unsigned hash(const void *x)) Mem, Failed 

创建 、 初 始 化 并 返回 一 个 空 集合 。 关 于 hint 、cmp 和 hash 参 见 Table_new 的 说 明 。 

void Set. put(T set, const void *member) Mem Failed 

如 果 需 要 。 给 set 添 加 member 。 

void * Set remove(T set, const void *member) 

如 果 member € set， 则 从 set 中 删除 member， 并 返回 删除 的 这 个 元 素 ; 否则 ; Set removei& [IZ , 

void ** Set toArray(T set, void *end) Mem Failed 

创建 一 个 N+1-element 元 素 的 数组 ， 以 木 指 定 的 顺序 存放 set 中 的 N 个 元 素 ， 并 返回 第 一 
个 元 素 的 指针 。 第 N 个 元 素 为 end 。 

T Set union(T s, T t) Mem Failed 

返回 s ot: TCR HB Bs SX BU SE A, Here. 参见 Set_diff。 


Stack TEE XStack T 


癌 任意 Stack 函数 传递 空 [ 会 产生 一 个 c.re.。 

int Stack empty(T stk) 

ARStk A775 RIS 耕 则 返回 0。 

void Stack_free(T *stk) 

释放 并 清空 *stk stkskE*stk 为 空 时 产生 一 个 cr.e.. 
T Stack new(void) Mem, Failed 

返回 一 个 新 的 空 工 

void * Stack. pop(T Stk) 

弹出 并 返回 stk 的 顶端 元 素 。stk 为 空 时 产生 -- 个 cr.e.。 
void Stack push(T stk, void *x) Mem, Failed 
将 x 推 人 堆栈 顶端 。 


Str 


Str 顺 数 处理 以 null 结 尾 的 字符 串 。 位 署 确定 两 个 字符 之 间 的 点 ;例如 ， STRING 中 的 位 
AE: 
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af EA TE— FUB 28 Hi CEXE PII GE. UE SE TE IB Str 函数 为 其 结果 分 配 空 间 。 在 下 面 的 
介绍 中 、sfi:j] 表 示 s 中 位 置 i 到 j 之 间 的 子 字符 串 。 向 任意 Str 函 数 传递 不 存在 的 位 置 或 空 字符 
指针 会 产生 一 个 c.r.e.， 除 了 Str_catv 和 Str_map 指 明 的 具体 情况 。 

int Str_any(const char *s, int i,const char * set) 

如 果 s[i: it11 出 现在 set 中， 就 返回 s 中 那个 字符 后 的 正 值 位 置 ， 否 则 返回 9。set 为 空 时 产 - 
生 一 个 c.r,e.。 

char * Str cat(const char *s1, int il, int j1, const char *s2, int i2, int j2) Mem Failed 

lls til: jE Es2[i2: j2] 的 结果 。 

char * Str catv(const char *s, ...) Mem Failed 

BETH Uus rh ÉS ICE UH RS ETE B, — EDS) SOSH EL, BSS UE 
个 sfi: jl. 

int Str_chr(const char *s, int i, int j, int c) 

返回 s[i: j] 中 c 的 最 左边 出 现 位 置 之 前 在 s 中 的 位 置 。 

int Str_cmp(const char *s1, int il, int j1, const char *s2, int i2, int j2) 

如 果 s1[il: j1]«s2[i2: j2], sl[il: jI]-s2[i2: j2] ast (il: j1]»s2[i2: j2] 则 分 别 返回 小 于 0 , 
等 于 0 或 大 于 0 的 一 个 整数 。 

char * Str dup(const char *s, int i, intj, int n. Mem Failed 

返回 s[i: 和 的 n 个 副本 。n<0 时 产生 一 个 c.T.e.。 

int Str_find(const char *s, int i, int j, const char *str) 

返回 sli: j] Pstr WA Aad BS B ES POS AE 。 

void Str_fmt(int code, va_list *app, int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

是 个 Fmt 转 换 函 数 。 它 需要 三 个 参数 一 一 一 个 字符 串 及 两 个 位 置 一 一 并 以 printf 的 %s X 
格格 式 化 这 个 子 字符 叫 。app 或 flags 为 空 时 产生 一 个 c.r.e,。 

int Str_len(const char *s, int i, int j) 

返回 sfi: J] HE BE, 

int Str_many(const char *s, int i, int j, const char *set) 

返回 s[i: j] 80 8f TAL A set Ft ap ay — eB AES EA 208 es) EAL, 否则 返回 0.。 set 为 
空 时 产生 一 个 c.r.e.。 

char *Str map(const char *s, int i, int j, const char *from, const char *to) Mem Failed 

返回 一 个 根据 from 和 to 映射 sli: 订 中 的 字符 所 得 到 字符 串 。sfi: j] 中 出 现在 from 的 每 个 字 
符 都 被 映射 到 to 中 的 相应 字符 。 没 有 处 在 rom 的 字符 映射 成 自身 。 如 果 from 和 to 都 为 空 ， 就 
使 用 它们 以 前 的 值 。 如 果 s 为 空 , from 和 to 建立 一 个 默认 的 映射 。 from 和 to 中 仅 有 一 个 为 空 时 ， 
strlen(from) 关 strlen(to) 时 ，s 、from 及 to 都 为 空 上 时， 或 者 第 一 次 调用 from 和 to 都 为 空 时 ， 产 生 
一 个 c.T.e.。 

int Str match(const char *s, int i, int j, const char *str) 


Asi: 计 Bstr 开 始 则 返回 s 中 的 正 值 位 置 ; 否则 返回 0 。str 为 空 时 产生 一 个 c.fe.。 
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int Str_pos(const char *s, int i) 

返回 s[i: JAJA ME ELDER URL AE si: i+ 1] BT I ne 

int Str rchr(const char *s, int i, int j, int c) 

是 Str_chr 的 最 右边 变 体 。 

char * Str, reverse(const char *s, int i, intj) Mem Failed 

Asli: j] 中 字符 的 相反 顺序 生成 其 副本 并 返回 这 个 副本 。 

int Str rfind(const char *s, int i, int j, const char * str) 

是 Str_find 的 最 右边 变 体 。 

int Str rmany(const char *s, int i, int j, const char *set) 

返回 s[i: 订 末 尾 从 set 开 始 的 一 串 非 空 字符 之 后 在 s 中 的 正 值 位 置 ， 否 则 返回 0 。set 为 空 时 
产生 一 个 c.T.e.。 

int Str rmatch(const char *s, int i, int j, const char *str) 

An SLi: 中 以 str 结 束 则 返回 s 中 str 之 前 的 正 值 位 置 ; 否则 返回 0。str 为 空 时 产生 一 个 c.r.e.。 

int Str_rupto(const char *s, int i, int j, const char * set) 

是 Str_upto 的 最 右边 变 体 。 

char * Str_sub(const char *s, int i, int j) Mem, Failed 

返回 s[i: j]。 

int Str_upto(const char *s, int i, int j, const char *str) 

返回 set 中 任 一 宁 符 在 sli; 让 的 最 左边 出 现 位 置 之 前 在 s 中 位 置 ; 否则 返回 0。set 为 空 时 产 


生 一 个 c.r.e.。 


Table T 是 隐 式 Table_T 


I] ff S£ Table RARE ATR key BP ^E — A c.r.e. , 

void Table. free(T sable 

PERK FE 7S * table. tables * table 42s BL ge 4E — ^^ c.r.e., 

void * Table get(T table, const void *key) 

返回 table 中 与 key 相 关联 的 值 ; 如 果 table 中 没有 key 则 返回 空 。 

int Table length(T table) 

返回 table 中 键 - 值 对 的 个 数 。 

void Table_map(T table,void apply(const void *key, void * *value, void *cl), void *cl) 

对 table 中 每 个 键 ~ 值 对 按 未 指定 的 顺序 洞 用 apply(key, &value, cl)。 apply 要 修改 table 会 
产生 一 个 c.r.e.。 | 

T Table_new(int hint, int cmp(const void *X, const void *y), 

unsigned hash(const void *key)) Mem Failed 

创建 、 初 始 化 并 返回 一 个 可 以 存放 任意 数目 键 - 值 对 的 新 的 空 表 ， hint 足 对 这 种 键 - 值 对 
期 望 个 数 的 估计 。hint<0 时 产生 一 个 cre,。 cmp 和 hash 是 比较 和 散 列 这 些 键 的 函数 。 对 于 键 x 
和 y ， 如 果 x<y 、x=y 或 x>y，cmp(x, y) 则 必须 分 别 返 回 小 于 0 、 等 于 0 或 大 于 0 的 整数 。 如 果 
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cmp(x，y) 返 回 0， 那 么 hash(x，y) 必 须 等 于 hash(y) 。 如 果 cmp 为 空 mhash2gzs , ABA 
Table_new 就 使 用 适合 于 Atom_T 键 的 一 个 函数 。 

void * Table put(T table,const void *key, void *value) Mem Failed 

把 table 中 key 的 关联 值 改变 为 value 并 返回 以 前 的 值 ， 或 者 ， 如 果 table 中 没有 key 就 添加 
key 和 value ， 并 返回 空 。 

void * Table_remove(T table, const void *key) 

从 table 中 删除 key- 值 对 并 返回 删除 的 都 个 值 。 如 果 table 中 没有 key Table removet s 
产生 作用 并 返回 空 。 

void ** Table toArray(T table, void *end) Mem Failed 

创建 一 个 2N+1-element 个 元 素 的 数组 ， 以 未 指定 顺序 存放 table 中 个 键 - 值 对 ， 并 返回 
第 一 个 元 素 的 指针 。 出 现在 偶数 位 置 数 组 元 素 中 的 键 及 其 相应 的 值 出 现在 其 后 的 奇数 位 置 元 
素 中 ; 元 素 2N 是 end 。 


Text T#Text_T 


typedef struct T ( int len; const char *str; ) T; 
typedef struct Text save T * Text save T; 
T 是 个 描述 符 ; 客户 可 以 读 取 描述 符 的 字段 ,但 是 写 这 些 字 段 则 是 一 个 u.r.e.。Text 函 数 通 

过 value 接 受 并 返回 描述 符 ; 向 任意 Text 函 数 传递 str 为 空 或 len<0 的 描述 符 ， 会 产生 -个 cre.。 

Text 为 其 恒 不 变 的 字符 串 管理 内 存 ; 在 这 部 分 字符 串 空 间 进 行 写 操作 或 用 外 部 手段 释放 
这 部 分 空间 都 是 个 ur.e.。 字 符 串 空间 中 的 字符 串 可 以 包含 空 字符 ， 央 此 不 能 以 空 字符 结束 。 

一 些 Text 函 数 接受 用 以 确定 字符 之 间 的 点 的 位 置 参见 Str。 下 面 的 描述 符 中 ，sfi : j)# 
示 s 中 位 置 ; 和 j 之 间 的 子 中 。 

const T Text_cset = { 256, “\000\001..\376\377” ) 

const T Text ascii = { 128, “\000\001...\176\177” ) 

const T Text ucase ={ 26, "ABCDEFGHIJKLMNOPQRSTUVWXYZ " } 

const T Text lcase ={ 26, "abcdefhijklmnopqrtuvwxyz" } 

const T Text digits = { 10, “0123456789” } 

const T Text null ={ 0, “” } 

是 经 过 如 上 初始 化 的 静态 描述 符 。 

int Text_any(T s, int i, T set) 

如 果 s[i : ie 1] tH Eset HIR [EL HUS es rp RE; 否则 返 

T Text box(const char *str, int len) 

为 客户 分 配 的 长 度 为 len 的 字符 串 str 建 立 并 返回 一个 描 述 符 。sr 为 空 和 en<0 时 产生 一 个 cre.。 

T Text cat(T s1, T s2) Mem Failed 

返回 s1 连 接 s2 后 的 值 。 

int Text_chr(T s, int i, int j. int c) 

参见 Str_chr。 
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int Text cmp(T s1, T s2) 

如 果 sl<s2 、s1=s2 或 s1>s2 则 分 别 返 回 小 于 0、 等 于 0 或 大 于 0 的 一 个 整数 。 

T Text dup(T s, int n) Mem, Failed 

返回 s 的 n 个 副本 。n<0 时 产生 一 个 c.r.e.。 

int Text_find(T s, int i, int j, T str) 

参见 Str_find , 

void Text_fmt(int code, va list *app, int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

是 个 Fmt 转 换 函 数 。 它 需要 一 个 指向 描述 符 的 指针 ， 并 以 printf 的 %s 风 格格 式 化 字符 串 。 
描述 符 指针 app 或 flags 为 空 时 产生 一 个 c.r.e. ， 

char * Text get(char *str, int size, T s) 

把 s.str[0..str.len 1] 拷贝 到 strf0..size-1] ， 并 在 未 尾 附加 一 个 空 字符 ， 然 后 返回 str。 如 果 
str 为 空 ，Text_get 则 分 配 空间 。str 不 为 空 晶 size<s.len+1 时 产生 一 个 c.r.e.。 

int Text many(T s, int i, int j, T set) 

Æi Str many, 

T Text ,map(T s, const T *from, const T *to) Mem Failed 

返回 一 个 根据 from 和 to 映射 s 中 的 字符 所 得 到 字符 串 。 参 见 Str_map 。 如 果 from 和 to 都 为 
空 ， 就 使 用 它们 以 前 的 值 。 如 果 s 为 空 fromfütozEsr —^- RA BUB , 。from 和 to 中 仅 有 -一 个 
为 空 或 from->len 天 to-~>len 时 产生 一 个 c.T.e.。 

int Text_match(T s, int i, int j, T str) 

参见 Str_match 。 

int Text pos(T s, int i) 

参见 Str_pos 。 

T Text put(const char *str) Mem_Failed 

把 以 空 字 符 结尾 的 str 拷 贝 到 字符 串 空 间 并 返回 它 的 描述 符 。str 为 空 时 产生 一 个 cfe.。 

int Text_rchr(T s, int i, int j, int c) 

参见 Str_rchr。 

void Text restore(Text save T *save) 

弹出 字符 串 空间 赋予 save 所 表示 的 点 。save 为 空 时 产生 一 个 c.r.e.。 调 用 Text_restore 之 后 
使 用 其 他 表示 高 于 save 单 元 的 Text_save_T 值 会 产生 一 个 u.r.e.。 

T Text reverse(T s) Mem Failed 

以 s 中 字符 的 相反 顺序 生成 其 副本 并 返回 这 个 副本 。 

int Text_rfind(T s, int i, int j, T str) 

参见 Str_rfind 。 

int Text_rmany(T s, int i, int j, T str) 

参见 Str_rmany 。 


int Text rmatch(T s, int i, int j, T str) 
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参见 Str_rmatch 。 

int Text rupto(T s, int i, int j, T set) 

参见 Str_rupto 。 

Text save T Text save(void) Mem, Failed 

返回 对 当前 字符 串 空间 顶端 进行 编码 的 一 个 隐 式 指针 。 
T Text sub(T s, int i, int j) 

返回 si : j]。 

int Text. upto(T s, int i, intj, T set) 

参见 Str_upto。 


Thread T 是 隐 式 Thread T 


调用 Thread_init 之 前 调用 任何 Thread 函数 都 会 产生 一 个 c.r.e.。 

void Thread alert(T t) 

设置 ! 的 未 决 警告 标志 并 使 (可 运行 。 下 次 + 运行 时 或 调用 模块 化 Thread 、Sem 或 Chan 原 语 
时 清空 其 标志 并 引发 Thread_Alerted 。t 为 空 或 给 一 个 不 存在 的 线程 命名 会 产生 一 个 c.r.e. 。 

void Thread exit(int code) 

终止 调用 线程 并 将 code 传 递 给 任 一 等 待 调用 线程 结束 的 线程 。 当 最 后 一 个 线程 调用 
Thread_exit 时 ， 程 序 就 终 止 于 exit(code) 。 

int Thread  init(int preempt, ...) 

将 Thread 初 始 化 为 无 优先 权 (preempt 20 ) 或 有 优先 权 (preempt =1 ) 调度 并 返回 
preempt; 如 果 preempt=1 且 不 支持 优先 权 调度 则 返回 0. Thread_init 可 以 接受 实现 所 定义 的 其 
他 参数 ;参数 列表 必须 以 空 字符 结束 。 多 次 调用 Thread_init 会 产生 一 个 cre.。 

int Thread join(T t) Thread Alerted 

挂 起 调用 线程 直到 线程 { 终 止 。 当 (终止 时 ，Thread_join 返 回 t 的 返回 码 。 如 果 t 为 空 ， 调 
用 线程 就 等 待 其 他 所 有 线程 结束 ， 然 后 返回 0。t 要 给 调用 线程 命名 或 多 个 线程 传递 空 t 则 会 产 
生 一 个 c.r.e.。 

T Thread new(int apply(void *), void *args, int nbytes, ...), 

Thread Failed 

创建 、 初 始 化 并 启动 一 个 新 线程 ， 然 后 返回 其 句柄 。 如 果 nbytes=0 ， 新 线程 就 执行 
Thread, exit(apply(args)) ; 否则 执行 Thread_exit(apply(p)) ， 这 里 p 指 向 一 个 从 args 开 始 的 
nbytes 内 存 块 副本 。 新 线程 开始 于 它 自己 的 空 异 常 堆栈 。Thread_new 可 以 接受 实现 所 定义 的 
其 他 参数 ; 参数 列表 必须 以 空 字符 结束 。 apply 为 空 或 者 args 为 空 且 nbytes<0 时 产生 一 个 
C.I.6., 

void Thread pause(void) 

放弃 处 理 器 供 另 一 线程 使 用 ， 可 能 是 调用 方 。 

T Thread self(void) 

返回 调用 线程 的 句柄 。 
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XP TEXP T 


typedef unsigned char *T; 

一 个 扩展 精度 的 无 符号 整数 按 2 为 底 表 示 成 n 位 数组 ， 最 无 效 数字 在 第 一 位 。 大 多 数 XP 
函数 把 n 当 作 与 源 和 目的 Ts 一 起 的 一 个 参数 ; n<1 或 n 不 是 Ts 的 相应 长 度 时 产生 一 个 ua.r.e.。 向 
任 一 XP 函数 传递 一 个 空 T 或 太 小 的 T 都 会 产生 一 个 u.r.e.。 

int XP. add(int n, T z, T x, Ty, int carry) 

将 z[0..n~J 设 为 x+y+carry 并 返回 z[n-1] 中 的 进位 carry 必须 为 0 或 1。 

int XP. cmp(int n, T x, T y) 

如 果 x<y 、x=y 或 x>y 则 分 别 返 回 小 于 0 、 等 于 0 或 大 于 0 的 整数 。 

int XP. diff(int n, T z, T x, int y) 

将 z[0..n-1] 设 为 x-y ， 这 里 y 是 一 位 数字 ， 并 返回 z[n-1] 中 的 借 位 。y>23 时 产生 一 个 u.r.e.。 

int XP. div(int n, T q, T x, int m, T y, Tr, T tmp) 

YEq[0..n—-1] i$ Jgx[0..n-1]/y[0..m -1] , r[0..m-1]i& Jg x[0..n-1] mod y[0..m-1], ay <0, 
返回 。 如 果 y=0 ，XP_div 返 回 0 且 保持 q 和 1 不 变 。tmp 必 须 至 少 有 n+m+2 个 数字 。 q 或 r 是 x 或 
y 中 其 一 时 、q 及 r 都 同 为 T 时 或 者 tmp 太 小 时 则 是 个 ur.e.。 

unsigned long XP. fromint(int n, T z, unsigned long u) 

将 z[0..n-1] 设 为 u mod 28 并 返回 u/28 。 

int XP. fromstr(int n, T z, const char *str, int base, char * *end) 

将 str 解 释 为 以 base 为 底 的 无 符号 整数 ， 并 在 转换 中 把 z[0..n_1 用 作 初始 值 ， 然 后 返回 转 
换 的 第 一 个 非 零 结 果 。 如 果 end 不 为 空 ，*end 指 向 str 中 终止 扫描 或 生成 非 零 进位 的 那个 字符 。 
参见 AP_fromstr 。 

int XP length(int n, T x) 

返回 x 的 长 度 ; 也 即 , 下 标 加 上 x[0..n-1] 中 的 一 个 最 有 效 非 零 位 。 

void XP. Ishift(int n, T z, int m, T x, int s, int fill) 

将 z[0..n- 菇 设 为 x[0..m-1] 左 移 s 位 后 的 结果 ， 并 用 fill 填 充 空 出 的 位 ，fill 必须 为 0 或 1 。 
sS<0 时 产生 一 个 ar.e.。 

int XP. mul(T z, int n, T x, int m, T y) 

TEx[0..n-1] + y[0..m -1]7 Sjz[0..n«m -1]3¢ 3K lFlz[n«m -1] KH. d SRz-0, XP. mulli 
计算 x . y。z 是 与 x 或 y 相 同 的 T 时 产生 一 个 Wr.e.。 

int XP. neg(int n, T z, T x, int carry) 

XY z[0..n-1] E39 ~x+carry ， 这 里 carry 为 0 或 1 ， 并 返回 z[n-1] 的 结果 。 

int XP. product(int n, T z, T x, int y) 

Féz[0..n-1] Bx + y , 3X By ASE ， 并 返回 z[n-1] 的 结果 。y 28 时 产生 一 个 mre 。 

int XP. quotient(int n, T z, T x, int y) 

2[0.n-l] xy, 3X ly 为 一 位 的 数字 ， 并 返回 x mody, y-Osty 225894: — ure. 

void XP rshift(int n, T z, int m, T x, int s, int fill) 

BB; 参见 XP_lshift。 如 果 n>m ， 多 余 的 位 就 当 作 它们 等 于 fill。 
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int XP. sub(int n, T z, T x, T y, int borrow) 

将 z[0..n-1] 设 为 xX-y-borrow ， 并 返回 zfn-1] 中 的 借 位 。borrow 必 须 为 0 或 1。 

int XP. sum(int n, T z, T x, int y) 

TEz[0..n 1] Ix +y， 这 里 y 为 一 位 的 数字 ， 并 返回 zfn-1] 的 结果 。y 2 时 产生 一 个 ur.e.。 

unsigned long XP toint(int n, T x) 

返回 x mod (ULONG_MAX+1), 

char * XP tostr(char * str, int size, int base, int n, T x) 

用 x 以 base 为 底数 的 字符 表示 形式 填充 str[0..size -1] ， 并 将 x 设 为 0， 然 后 返回 str 。str 为 空 、 
size 太 小 或 者 base<2 或 base>36 时 产生 一 个 c.r.e.。 
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